Traitement en cours

Veuillez attendre...

PATENTSCOPE sera indisponible durant quelques heures pour des raisons de maintenance le mardi 27.07.2021 à 12:00 PM CEST
Paramétrages

Paramétrages

Aller à Demande

1. WO2020162238 - DISPOSITIF DE RECONNAISSANCE DE PAROLE, PROCÉDÉ DE RECONNAISSANCE DE PAROLE ET PROGRAMME

Numéro de publication WO/2020/162238
Date de publication 13.08.2020
N° de la demande internationale PCT/JP2020/002648
Date du dépôt international 27.01.2020
CIB
G10L 15/02 2006.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
02Extraction de caractéristiques pour la reconnaissance de la parole; Sélection d'unités de reconnaissance 
G10L 15/06 2013.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
06Création de gabarits de référence; Entraînement des systèmes de reconnaissance de la parole, p.ex. adaptation aux caractéristiques de la voix du locuteur
G10L 15/16 2006.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
08Classement ou recherche de la parole
16utilisant des réseaux neuronaux artificiels
CPC
G10L 15/02
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
02Feature extraction for speech recognition; Selection of recognition unit
G10L 15/06
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
G10L 15/10
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
10using distance or distortion measures between unknown speech and reference templates
G10L 15/16
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
16using artificial neural networks
Déposants
  • 日本電信電話株式会社 NIPPON TELEGRAPH AND TELEPHONE CORPORATION [JP]/[JP]
Inventeurs
  • 増村 亮 MASUMURA, Ryo
  • 田中 智大 TANAKA, Tomohiro
  • 大庭 隆伸 OBA, Takanobu
Mandataires
  • 中尾 直樹 NAKAO, Naoki
  • 中村 幸雄 NAKAMURA, Yukio
  • 義村 宗洋 YOSHIMURA, Takahiro
Données relatives à la priorité
2019-02039607.02.2019JP
Langue de publication japonais (JA)
Langue de dépôt japonais (JA)
États désignés
Titre
(EN) SPEECH RECOGNITION DEVICE, SPEECH RECOGNITION METHOD, AND PROGRAM
(FR) DISPOSITIF DE RECONNAISSANCE DE PAROLE, PROCÉDÉ DE RECONNAISSANCE DE PAROLE ET PROGRAMME
(JA) 音声認識装置、音声認識方法、プログラム
Abrégé
(EN)
Provided is a speech recognition device capable of realizing end-to-end speech recognition that takes context into consideration. The speech recognition device includes a model parameter learning unit that learns a model parameter θ by estimating a maximum likelihood for a likelihood function of the probability that an observation value will occur under given parameters, with: a word sequence of interest being used as the observation value; and a word sequence more in the past than the word sequence of interest, an acoustic feature amount sequence corresponding to the word sequence of interest, and the model parameter θ being used as the given parameters. The speech recognition device also includes: a speech recognition unit that repeats, in time series, processing for recognizing a word sequence to be recognized, according to a maximum likelihood criterium for the likelihood function of the probability that an observation value will occur under given parameters: with the word sequence to be recognized being used as the observation value; and a word sequence which has already been recognized and is more in the past than the word sequence to be recognized, an acoustic feature amount sequence corresponding to the word sequence to be recognized, and the already-learned model parameter θ being used as the given parameters.
(FR)
La présente invention concerne un dispositif de reconnaissance de parole capable de réaliser une reconnaissance de parole de bout en bout qui tient compte du contexte. Le dispositif de reconnaissance de parole comprend une unité d’apprentissage de paramètre de modèle qui apprend un paramètre de modèle θ par estimation d’une probabilité maximale pour une fonction de probabilité de la probabilité qu’une valeur d’observation se produise avec des paramètres donnés, avec : une séquence de mots d’intérêt étant utilisée en tant que valeur d’observation ; et une séquence de mots plus antérieure que la séquence de mots d’intérêt, une séquence de quantité caractéristique acoustique correspondant à la séquence de mots d’intérêt, et le paramètre de modèle θ étant utilisé en tant que paramètres donnés. Le dispositif de reconnaissance de parole comprend en outre : une unité de reconnaissance de parole qui répète, en série chronologique, un traitement pour reconnaître une séquence de mots à reconnaître, en fonction d’un critère de probabilité maximale pour la fonction de probabilité de la probabilité qu’une valeur d’observation se produise sous des paramètres donnés : la séquence de mots à reconnaître étant utilisée en tant que valeur d’observation ; et une séquence de mots qui a déjà été reconnue et qui est plus antérieure à la séquence de mots à reconnaître, une séquence de quantité de caractéristique acoustique correspondant à la séquence de mots à reconnaître, et le paramètre de modèle θ déjà appris étant utilisé en tant que paramètre donné.
(JA)
文脈を考慮したend-to-end音声認識を実現できる音声認識装置を提供する。注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤推定を行うことにより、モデルパラメータθを学習するモデルパラメータ学習部と、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みのモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識部を含む。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international