処理中

しばらくお待ちください...

設定

設定

出願の表示

1. WO2020241073 - 音響信号データベース生成装置、音響信号検索装置

公開番号 WO/2020/241073
公開日 03.12.2020
国際出願番号 PCT/JP2020/015794
国際出願日 08.04.2020
予備審査請求日 05.10.2020
IPC
G06F 16/683 2019.1
G物理学
06計算;計数
F電気的デジタルデータ処理
16情報検索;そのためのデータベース構造;そのためのファイルシステム構造
60音声データ
68メタデータ,例.コンテンツから取得したものではないメタデータまたは手動で生成されたメタデータ,を用いることに特徴のある検索
683コンテンツから自動取得したメタデータの使用
G10L 15/00 2013.1
G物理学
10楽器;音響
L音声の分析または合成;音声認識;音声処理;音声または音響の符号化と復号化
15音声認識
G10L 15/10 2006.1
G物理学
10楽器;音響
L音声の分析または合成;音声認識;音声処理;音声または音響の符号化と復号化
15音声認識
08音声の識別または探索
10未知音声と標準パタンとの距離または歪みを用いるもの
G10L 15/16 2006.1
G物理学
10楽器;音響
L音声の分析または合成;音声認識;音声処理;音声または音響の符号化と復号化
15音声認識
08音声の識別または探索
16ニューラル・ネットワークを用いるもの
CPC
G06F 16/683
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
60of audio data
68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
683using metadata automatically derived from the content
G10L 15/00
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
G10L 15/10
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
10using distance or distortion measures between unknown speech and reference templates
G10L 15/16
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
16using artificial neural networks
出願人
  • 日本電信電話株式会社 NIPPON TELEGRAPH AND TELEPHONE CORPORATION [JP]/[JP]
  • 国立大学法人東京大学 THE UNIVERSITY OF TOKYO [JP]/[JP]
発明者
  • 柏野 邦夫 KASHINO, Kunio
  • 井川 翔太 IKAWA, Shota
代理人
  • 中尾 直樹 NAKAO, Naoki
  • 中村 幸雄 NAKAMURA, Yukio
  • 義村 宗洋 YOSHIMURA, Takahiro
優先権情報
2019-09731124.05.2019JP
公開言語 (言語コード) 日本語 (ja)
出願言語 (言語コード) 日本語 (JA)
指定国 (国コード)
発明の名称
(EN) AUDIO SIGNAL DATABASE GENERATION DEVICE, AND AUDIO SIGNAL RETRIEVING DEVICE
(FR) DISPOSITIF DE GÉNÉRATION DE BASE DE DONNÉES DE SIGNAL AUDIO, ET DISPOSITIF DE RÉCUPÉRATION DE SIGNAL AUDIO
(JA) 音響信号データベース生成装置、音響信号検索装置
要約
(EN) Provided is database generation technology capable of accurately and efficiently generating a database which can be used in text-based audio signal retrieval. The present invention includes: a latent variable generation unit that uses an audio signal encoder to generate, from an audio signal, a latent variable corresponding to the audio signal; a data generation unit that uses a natural language expression decoder to generate a natural language expression corresponding to the audio signal from a condition relating to an index for a natural language expression and the latent variable; and an audio signal database generation unit that generates, from the natural language expression corresponding to the audio signal and the audio signal, a record containing the natural language expression corresponding to the audio signal and the audio signal, and generates an audio signal database comprising the record.
(FR) L'invention concerne une technologie de génération de base de données apte à générer avec précision et efficacité une base de données qui peut être utilisée dans la récupération de signal audio à base de texte. La présente invention comprend : une unité de génération de variable latente qui utilise un codeur de signal audio afin de générer, à partir d'un signal audio, une variable latente correspondant au signal audio; une unité de génération de données qui utilise un décodeur d'expression de langage naturel afin de générer une expression de langage naturel correspondant au signal audio à partir d'une condition relative à un indice pour une expression de langage naturel et de la variable latente; et une unité de génération de base de données de signal audio qui génère, à partir de l'expression de langage naturel correspondant au signal audio et du signal audio, un enregistrement contenant l'expression de langage naturel correspondant au signal audio et le signal audio, et génère une base de données de signal audio comprenant l'enregistrement.
(JA) テキストベース音響信号検索で用いることができるデータベースを的確かつ効率よく生成することができるデータベース生成技術を提供する。音響信号から、音響信号エンコーダを用いて、前記音響信号に対応する潜在変数を生成する潜在変数生成部と、前記潜在変数と自然言語表現に対する指標に関する条件から、自然言語表現デコーダを用いて、前記音響信号に対応する自然言語表現を生成するデータ生成部と、前記音響信号に対応する自然言語表現と前記音響信号から、前記音響信号に対応する自然言語表現と前記音響信号とを含むレコードを生成し、当該レコードから構成される音響信号データベースを生成する音響信号データベース生成部と、を含む。
Related patent documents
JP2021522682This application is not viewable in PATENTSCOPE because the national phase entry has not been published yet or the national entry is issued from a country that does not share data with WIPO or there is a formatting issue or an unavailability of the application.
国際事務局に記録されている最新の書誌情報