WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2018000273) DEVICE AND METHOD FOR DETECTING UNACCEPTABLE CORPUS DATA CONTENT
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2018/000273 International Application No.: PCT/CN2016/087758
Publication Date: 04.01.2018 International Filing Date: 29.06.2016
IPC:
G06F 17/30 (2006.01)
Applicants: SHENZHEN GOWILD ROBOTICS CO.,LTD[CN/CN]; 1307-09, Dong-Fang Technology Building, Keyuan Road, Yuehai Street, Nanshan Shenzhen, Guangdong 518000, CN
Inventors: YANG, Xinyu; CN
WANG, Haofen; CN
QIU, Nan; CN
Agent: SHENZHEN HYVISION INTELLECTUAL PROPERTY ATTORNEY; Room 405, Tower B, Fuhua Technology Building, NO.9116 Beihuan Road, North High-tech District, Nanshan Shenzhen, Guangdong 518000, CN
Priority Data:
Title (EN) DEVICE AND METHOD FOR DETECTING UNACCEPTABLE CORPUS DATA CONTENT
(FR) DISPOSITIF ET PROCÉDÉ PERMETTANT DE DÉTECTER UN CONTENU DE DONNÉES DE CORPUS INACCEPTABLE
(ZH) 一种不良语料内容检测装置和方法
Abstract: front page image
(EN) A device and method for detecting unacceptable corpus data content. The device comprises: a semantic frame determination module (110) for performing word segmentation on corpus data to undergo detection and determining a semantic frame for the corpus data to undergo detection; a detection standard configuration module (120) connected to a corpus (101) and the semantic frame determination module (110), used for transmitting corpus data in the corpus (101) to the semantic frame determination module (110), so as to determine a semantic frame of corpus data in the corpus (101) and extract unacceptable content words obtained in the word segmentation of the corpus (101); and a detection module (130) for comparing a result of the word segmentation of the corpus data to undergo detection and the unacceptable content words, and for comparing a semantic frame to undergo detection and all of the semantic frames to determine if the corpus data to undergo detection has unacceptable corpus data content. By utilizing the solution, a semantic frame to undergo detection can be compared with known semantic frame types, and it can be determined whether the semantic frame to undergo detection has unacceptable corpus data content. The corpus data to undergo detection can be accurately determined as having or not having unacceptable content, and the occurrence of omission errors can be prevented.
(FR) L'invention concerne un dispositif et un procédé pour détecter un contenu de données de corpus inacceptable. Le dispositif comprend : un module de détermination de trame sémantique (110) pour effectuer une segmentation de mot sur des données de corpus devant subir une détection et déterminer une trame sémantique pour les données de corpus devant subir une détection ; un module de configuration de norme de détection (120) relié à un corpus (101) et au module de détermination de trame sémantique (110), utilisé pour transmettre des données de corpus dans le corpus (101) au module de détermination de trame sémantique (110), afin de déterminer une trame sémantique de données de corpus dans le corpus (101) et d'extraire des mots de contenu inacceptable obtenus dans la segmentation de mot du corpus (101) ; et un module de détection (130) pour comparer un résultat de la segmentation de mot des données de corpus devant subir une détection et les mots de contenu inacceptable, et pour comparer une trame sémantique devant subir une détection et toutes les trames sémantiques en vue de déterminer si les données de corpus devant subir une détection comportent un contenu de données de corpus inacceptable. À l'aide de la solution, une trame sémantique devant subir une détection peut être comparée à des types de trames sémantiques connus, et il peut être déterminé si la trame sémantique devant subir une détection comporte un contenu de données de corpus inacceptable. Les données de corpus devant subir une détection peuvent être déterminées avec précision comme comportant ou ne comportant pas un contenu inacceptable, et l'apparition d'erreurs d'omission peut être empêchée.
(ZH) 一种不良语料内容的检测装置和方法,该装置包括:语义框架确定模块(110),用于对待检测语料进行分词,确定待检测语料的语义框架;检测标准设定模块(120),连接语料库(101)和语义框架确定模块(110),用于将语料库(101)中的语料传输到语义框架确定模块(110),以确定语料库(101)中语料的语义框架,同时提取对语料库(101)进行分词处理时得到的不良内容词汇;检测模块(130),用于比对待检测语料的分词结果和不良内容词汇,并比对待检测语义框架和全部语义框架,确定待检测语料是否为不良语料内容。通过以上方案,能够与已知语义框架种类进行比对,辨别待检测的语义框架是否为不良内容语料,能够对精确判断待检测语料是否为不良内容,防止漏判现象。
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)