Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2018067440) SYSTÈMES ET PROCÉDÉS DE DÉTECTION DE LANGUE
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2018/067440 N° de la demande internationale : PCT/US2017/054722
Date de publication : 12.04.2018 Date de dépôt international : 02.10.2017
CIB :
G06F 17/27 (2006.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
F
TRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17
Equipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
20
Manipulation de données en langage naturel
27
Analyse automatique, p.ex. analyse grammaticale, correction orthographique
Déposants :
MZ IP HOLDINGS, LLC [US/US]; 2225 E. Bayshore Road, Suite 200 Palo Alto, CA 94303, US
Inventeurs :
BOJJA, Nikhil; US
WANG, Pidong; US
GUO, Shiman; US
Mandataire :
RUMMLER, Jeffrey, R.; US
ASHRAF, Shovon; US
ARGENTIERI, Steven, R.; US
BRODOWSKI, Michael; US
BUCHMAN, Joshua, J.; US
Données relatives à la priorité :
15/283,64603.10.2016US
Titre (EN) SYSTEMS AND METHODS FOR LANGUAGE DETECTION
(FR) SYSTÈMES ET PROCÉDÉS DE DÉTECTION DE LANGUE
Abrégé :
(EN) Implementations of the present disclosure are directed to a method, a system, and a computer program storage device for identifying a language in a message. Non-language characters are removed from a text message to generate a sanitized text message. An alphabet and/or a script are detected in the sanitized text message by performing at least one of (i) an alphabet-based language detection test to determine a first set of scores and (ii) a script-based language detection test to determine a second set of scores. Each score in the first set of scores represents a likelihood that the sanitized text message includes the alphabet for one of a plurality of different languages. Each score in the second set of scores represents a likelihood that the sanitized text message includes the script for one of the plurality of different languages. The language in the sanitized text message is identified based on at least one of the first set of scores, the second set of scores, and a combination of the first and second sets of scores.
(FR) La présente invention concerne, selon des modes de réalisation, un procédé, un système et un dispositif de stockage de programme informatique qui permettent d'identifier une langue dans un message. Des caractères non linguistiques sont éliminés d'un message textuel pour générer un message textuel expurgé. Un alphabet et/ou un script sont détectés dans le message textuel expurgé en exécutant (i) un essai de détection de langue fondé sur un alphabet pour déterminer un premier ensemble de scores et/ou (ii) un essai de détection de langue fondé sur un script pour déterminer un second ensemble de scores. Chaque score dans le premier ensemble de scores représente une probabilité que le message textuel expurgé comprend l'alphabet pour une langue parmi une pluralité de différentes langues. Chaque score dans le second ensemble de scores représente une probabilité que le message textuel expurgé comprend le script pour une langue parmi la pluralité de différentes langues. La langue dans le message textuel expurgé est identifiée sur la base du premier ensemble de scores et/ou du second ensemble de scores et/ou d'une combinaison des premier et second ensembles de scores.
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)