処理中

しばらくお待ちください...

設定

設定

出願の表示

1. WO2018212055 - ドキュメント識別装置、ドキュメント識別方法、プログラム

公開番号 WO/2018/212055
公開日 22.11.2018
国際出願番号 PCT/JP2018/018051
国際出願日 10.05.2018
IPC
G06F 17/27 2006.01
G物理学
06計算;計数
F電気的デジタルデータ処理
17特定の機能に特に適合したデジタル計算またはデータ処理の装置または方法
20自然言語データの取扱い
27自動言語解析,例.構文解析,綴字訂正
G10L 15/00 2013.01
G物理学
10楽器;音響
L音声の分析または合成;音声認識;音声処理;音声または音響の符号化と復号化
15音声認識
G10L 15/10 2006.01
G物理学
10楽器;音響
L音声の分析または合成;音声認識;音声処理;音声または音響の符号化と復号化
15音声認識
08音声の識別または探索
10未知音声と標準パタンとの距離または歪みを用いるもの
G10L 15/16 2006.01
G物理学
10楽器;音響
L音声の分析または合成;音声認識;音声処理;音声または音響の符号化と復号化
15音声認識
08音声の識別または探索
16ニューラル・ネットワークを用いるもの
CPC
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
G10L 15/16
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
16using artificial neural networks
G10L 15/1822
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
18using natural language modelling
1822Parsing for meaning understanding
G10L 15/197
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
18using natural language modelling
183using context dependencies, e.g. language models
19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
197Probabilistic grammars, e.g. word n-grams
G10L 15/22
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
22Procedures used during a speech recognition process, e.g. man-machine dialogue
G10L 15/26
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
26Speech to text systems
出願人
  • 日本電信電話株式会社 NIPPON TELEGRAPH AND TELEPHONE CORPORATION [JP]/[JP]
発明者
  • 増村 亮 MASUMURA, Ryo
  • 政瀧 浩和 MASATAKI, Hirokazu
代理人
  • 中尾 直樹 NAKAO, Naoki
  • 中村 幸雄 NAKAMURA, Yukio
  • 義村 宗洋 YOSHIMURA, Takahiro
優先権情報
2017-09836517.05.2017JP
公開言語 (言語コード) 日本語 (JA)
出願言語 (言語コード) 日本語 (JA)
指定国 (国コード)
発明の名称
(EN) DOCUMENT IDENTIFICATION DEVICE, DOCUMENT IDENTIFICATION METHOD, AND PROGRAM
(FR) DISPOSITIF D'IDENTIFICATION DE DOCUMENT, PROCÉDÉ D'IDENTIFICATION DE DOCUMENT ET PROGRAMME
(JA) ドキュメント識別装置、ドキュメント識別方法、プログラム
要約
(EN)
Provided is a document identification device which improves the class identification precision of multi-stream documents. The document identification device includes: a primary stream expression generation unit which generates, for each speaker, a primary stream expression which is a fixed length vector of a word sequence corresponding to the voice of each speaker recorded in a setting that includes a plurality of speakers; a primary multi-stream expression generation unit which generates a primary multi-stream expression obtained by integrating primary stream expressions; a secondary stream expression generation unit for generating, for each speaker, a secondary stream expression which is a fixed length vector that is generated on the basis of the primary multi-stream expression and word sequence of each speaker; and a secondary multi-stream expression generation unit for generating a secondary multi-stream expression obtained by integrating the secondary stream expressions.
(FR)
L'invention concerne un dispositif d'identification de document qui améliore la précision d'identification de classe de documents à flux multiples. Le dispositif d'identification de document comprend : une unité de production d'expression de flux primaire qui produit, pour chaque locuteur, une expression de flux primaire qui est un vecteur de longueur fixe d'une séquence de mots correspondant à la voix de chaque locuteur enregistrée dans un milieu qui comprend une pluralité de locuteurs ; une unité de production d'expression de flux multiples primaires qui produit une expression de flux multiples primaires obtenue en intégrant des expressions de flux primaire ; une unité de production d'expression de flux secondaire permettant de produire, pour chaque locuteur, une expression de flux secondaire qui est un vecteur de longueur fixe qui est produit en fonction de l'expression de flux multiples primaires et de la séquence de mots de chaque locuteur ; et une unité de production d'expression de flux multiples secondaires permettant de produire une expression de flux multiples secondaires obtenue en intégrant les expressions de flux secondaire.
(JA)
マルチストリームドキュメントのクラス識別精度が向上するドキュメント識別装置を提供する。複数の話者を含む場面で録音された話者ごとの音声に対応する単語系列の固定長ベクトルである1次ストリーム表現を、話者ごとに生成する1次ストリーム表現生成部と、1次ストリーム表現を統合してなる1次マルチストリーム表現を生成する1次マルチストリーム表現生成部と、話者ごとの単語系列と1次マルチストリーム表現に基づいて生成される固定長ベクトルである2次ストリーム表現を、話者ごとに生成する2次ストリーム表現生成部と、2次ストリーム表現を統合してなる2次マルチストリーム表現を生成する2次マルチストリーム表現生成部を含む。
国際事務局に記録されている最新の書誌情報