処理中

しばらくお待ちください...

PATENTSCOPE は、メンテナンスのため次の日時に数時間サービスを休止します。サービス休止: 火曜日 25.01.2022 (12:00 午後 CET)
設定

設定

出願の表示

1. WO2009099146 - 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法

公開番号 WO/2009/099146
公開日 13.08.2009
国際出願番号 PCT/JP2009/051970
国際出願日 05.02.2009
IPC
G10L 15/10 2006.1
G物理学
10楽器;音響
L音声の分析または合成;音声認識;音声処理;音声または音響の符号化と復号化
15音声認識
08音声の識別または探索
10未知音声と標準パタンとの距離または歪みを用いるもの
CPC
G10L 15/26
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
26Speech to text systems
G10L 2015/025
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
02Feature extraction for speech recognition; Selection of recognition unit
025Phonemes, fenemes or fenones being the recognition units
G10L 25/90
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
90Pitch determination of speech signals
出願人
  • 独立行政法人産業技術総合研究所 NATIONAL INSTITUTE OF ADVANCED INDUSTRIAL SCIENCE AND TECHNOLOGY [JP]/[JP] (AllExceptUS)
  • 藤原 弘将 FUJIHARA, Hiromasa [JP]/[JP] (UsOnly)
  • 後藤 真孝 GOTO, Masataka [JP]/[JP] (UsOnly)
発明者
  • 藤原 弘将 FUJIHARA, Hiromasa
  • 後藤 真孝 GOTO, Masataka
優先権情報
2008-02570305.02.2008JP
公開言語 (言語コード) 日本語 (ja)
出願言語 (言語コード) 日本語 (JA)
指定国 (国コード)
発明の名称
(EN) SYSTEM AND METHOD FOR AUTOMATIC TIME ALIGNMENT OF MUSIC AUDIO SIGNAL AND SONG LYRICS
(FR) SYSTÈME ET PROCÉDÉ POUR UN ALIGNEMENT TEMPOREL AUTOMATIQUE D'UN SIGNAL AUDIO MUSICAL ET DE PAROLES DE CHANSON
(JA) 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
要約
(EN) Disclosed is a system for automatic time alignment of a music audio signal and song lyrics that can increase alignment precision over that of the past. A fricative-free segment extraction unit (4) extracts segments in which there are no fricatives from the music audio signal. An alignment unit (17) is equipped with a vocal audio model (15) that estimates phonemes corresponding to characteristic quantities for time alignment. The alignment unit (17) takes the characteristic quantities for time alignment obtained from a time-alignment characteristic quantity extraction unit (11), information related to vocal segments and non-vocal segments obtained from a vocal segment estimator (9), and a phoneme network (SN) as inputs and executes an alignment operation under at least the condition that no phonemes are present in non-vocal segments and the condition that no fricative phonemes are present in segments in which fricatives do not exist.
(FR) L'invention porte sur un système, pour un alignement temporel automatique d'un signal audio musical et de paroles de chanson, qui peut augmenter la précision d'alignement par rapport aux systèmes antérieurs. Une unité d'extraction de segments exempts de fricative (4) extrait des segments dans lesquels il n'y a pas de fricative à partir du signal audio musical. Une unité d'alignement (17) est équipée d'un modèle audio vocal (15) qui estime des phonèmes correspondant à des quantités caractéristiques pour un alignement temporel. L'unité d'alignement (17) prend les quantités caractéristiques pour un alignement temporel obtenues à partir d'une unité d'extraction de quantités caractéristiques d'alignement temporel (11), des informations associées à des segments vocaux et des segments non vocaux obtenues à partir d'un estimateur de segment vocal (9), et un réseau de phonèmes (SN) en tant qu'entrées, et exécute une opération d'alignement à condition qu'au moins aucun phonème ne soit présent dans des segments non vocaux et qu'aucun phonème de fricative ne soit présent dans des segments dans lesquels des fricatives n'existent pas.
(JA)  従来よりもアラインメント精度を高めることができる音楽音響信号と歌詞の時間的対応付けを自動で行うシステムを提供する。非摩擦音区間抽出部4は、音楽音響信号から摩擦音が存在しない区間を抽出する。アラインメント部17は、時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル15を備える。アラインメント部17は、時間的対応付け用特徴量抽出部11から得た時間的対応付け用特徴量と、歌声区間推定部9から得た歌声区間と非歌声区間に関する情報と、音素ネットワークSNとを入力として、少なくとも非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメント動作を実行する。
Related patent documents
国際事務局に記録されている最新の書誌情報