Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2022050973 - MÉDIATION UTILISATEUR POUR LA DÉTECTION D'UN MOT DÉCLENCHEUR/MOT-CLÉ

Numéro de publication WO/2022/050973
Date de publication 10.03.2022
N° de la demande internationale PCT/US2020/065053
Date du dépôt international 15.12.2020
CIB
G10L 15/22 2006.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
22Procédures utilisées pendant le processus de reconnaissance de la parole, p.ex. dialogue homme-machine 
G10L 15/065 2013.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
06Création de gabarits de référence; Entraînement des systèmes de reconnaissance de la parole, p.ex. adaptation aux caractéristiques de la voix du locuteur
065Adaptation
G10L 15/08 2006.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
08Classement ou recherche de la parole
G10L 15/16 2006.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
08Classement ou recherche de la parole
16utilisant des réseaux neuronaux artificiels
CPC
G10L 15/063
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
063Training
G10L 15/065
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
065Adaptation
G10L 15/08
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
G10L 15/16
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
16using artificial neural networks
G10L 15/197
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
18using natural language modelling
183using context dependencies, e.g. language models
19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
197Probabilistic grammars, e.g. word n-grams
G10L 15/22
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
22Procedures used during a speech recognition process, e.g. man-machine dialogue
Déposants
  • GOOGLE LLC [US]/[US]
Inventeurs
  • KRACUN, Aleks
  • SUBRAHMANYA, Niranjan
  • SHAH, Aishanee
Mandataires
  • HIGDON, Scott
  • SALAZAR, John
  • SHUMAKER, Brantley
  • BARR, Eric
  • PURCELL, John
Données relatives à la priorité
17/011,61203.09.2020US
Langue de publication Anglais (en)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) USER MEDIATION FOR HOTWORD/KEYWORD DETECTION
(FR) MÉDIATION UTILISATEUR POUR LA DÉTECTION D'UN MOT DÉCLENCHEUR/MOT-CLÉ
Abrégé
(EN) Techniques are described herein for improving performance of machine learning model(s) and thresholds utilized in determining whether automated assistant function(s) are to be initiated. A method includes: receiving, via one or more microphones of a client device, audio data that captures a spoken utterance of a user; processing the audio data using a machine learning model to generate a predicted output that indicates a probability of one or more hotwords being present in the audio data; determining that the predicted output satisfies a secondary threshold that is less indicative of the one or more hotwords being present in the audio data than is a primary threshold; in response to determining that the predicted output satisfies the secondary threshold, prompting the user to indicate whether or not the spoken utterance includes a hotword; receiving, from the user, a response to the prompting; and adjusting the primary threshold based on the response.
(FR) L'invention concerne des techniques permettant d'améliorer les performances d'au moins un modèle d'apprentissage automatique et de seuils utilisés pour déterminer si au moins une fonction d'assistant automatisée doit être lancée. Le procédé consiste à : recevoir, par l'intermédiaire d'au moins un microphone d'un dispositif client, des données audio qui capturent un énoncé prononcé par un utilisateur ; traiter les données audio à l'aide d'un modèle d'apprentissage automatique afin de générer une sortie prédite qui indique la probabilité qu'au moins un mot déclencheur soit présent dans les données audio ; déterminer que la sortie prédite satisfait un seuil secondaire qui indique moins la présence de l'au moins un mot déclencheur dans les données audio qu'un seuil primaire ; lorsqu'il est déterminé que la sortie prédite satisfait le seuil secondaire, inviter l'utilisateur à indiquer si l'énoncé prononcé comprend ou non un mot déclencheur ; recevoir de l'utilisateur une réponse à l'invite ; et régler le seuil primaire sur la base de la réponse.
Documents de brevet associés
EP2020842365Cette demande ne peut pas être visualisée dans PATENTSCOPE car les données relatives à l'ouverture de la phase nationale n'ont pas encore été publiées ou sont émises par un pays qui ne partage pas de données avec l'OMPI ou il y a un problème de formatage ou d'indisponibilité de la demande.
Dernières données bibliographiques dont dispose le Bureau international