Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2015043072) METHOD AND SYSTEM FOR SELECTING AN ENCODING FORMAT FOR READING A TARGET DOCUMENT
Latest bibliographic data on file with the International Bureau   

Pub. No.: WO/2015/043072 International Application No.: PCT/CN2013/088745
Publication Date: 02.04.2015 International Filing Date: 06.12.2013
IPC:
G06F 17/22 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
20
Handling natural language data
21
Text processing
22
Manipulating or registering by use of codes, e.g. in sequence of text characters
Applicants:
北大方正集团有限公司 PEKING UNIVERSITY FOUNDER GROUP CO., LTD. [CN/CN]; 中国北京市 海淀区成府路298号 No.298, Chengfu Rd, Haidian District Beijing 100871, CN
北京方正阿帕比技术有限公司 FOUNDER APABI TECHNOLOGY LIMITED [CN/CN]; 中国北京市 海淀区彰化路曙光花园望河园5号楼 Building 5, Wangheyuan, Shuguang Garden Zhanghua Road, Haidian District Beijing 100089, CN
北京大学 PEKING UNIVERSITY [CN/CN]; 中国北京市 海淀区颐和园路5号 No. 5 Yiheyuan Road, Haidian District Beijing 100871, CN
Inventors:
叶茂 YE, Mao; CN
万巍 WAN, Wei; CN
金立峰 JIN, Lifeng; CN
王元龙 WANG, Yuanlong; CN
Agent:
中国国际贸易促进委员会专利商标事务所 CCPIT PATENT AND TRADEMARK LAW OFFICE; 中国北京市 西城区阜成门外大街2号万通新世界广场8层 8th Floor, Vantone New World Plaza 2 Fuchengmenwai Street, Xicheng District Beijing 100037, CN
Priority Data:
201310456276.629.09.2013CN
Title (EN) METHOD AND SYSTEM FOR SELECTING AN ENCODING FORMAT FOR READING A TARGET DOCUMENT
(FR) PROCÉDÉ ET SYSTÈME DE SÉLECTION DE FORMAT DE CODAGE POUR LIRE UN DOCUMENT CIBLE
(ZH) 一种选择读取目标文档的编码格式的方法及其系统
Abstract:
(EN) The present invention provides a method and system for selecting an encoding format for reading a target document; first, by means of a reference encoding format, reading a reference document to obtain a garbled code pattern; then, when reading the target document, for each coding format, comparing with the determined garbled code pattern the data generated when reading the target document with the encoding format, and determining the garbled code generated when reading the target document with the encoding format; next, computing the garbled code generated when reading the target document with each encoding format and performing a comparison, then determining the encoding format for reading the target document. The described technical solution effectively avoids the problem in the prior art of reading only the first few bytes of a target document, determining the values of these bytes, and thereby learning the encoding format thereof; but the first few bytes of a target document sometimes not retaining the encoding format information of the document, and it being impossible to obtain the encoding format of the document.
(FR) La présente invention porte sur un procédé de fonctionnement d'un système de sélection de format de codage pour lire un document cible, consistant à: en premier lieu, au moyen d'un format de codage de référence, lire un document de référence afin d'obtenir un motif de code tronqué; puis, lors de la lecture du document cible, pour chaque format de codage, comparer au motif de code tronqué déterminé les données générées lors de la lecture du document cible avec le format de codage, et déterminer le code tronqué généré lors de la lecture du document cible avec le format de codage; ensuite, calculer le code tronqué généré lors de la lecture du document cible avec chaque format de codage et effectuer une comparaison, puis déterminer le format de codage pour lire le document cible. La solution technique décrite évite efficacement le problème, dans l'état antérieur de la technique, qui est que seuls les quelques premiers octets d'un document cible sont lus, les valeurs de ces octets sont déterminées et le format de codage du document est ainsi appris, mais parfois les quelques premiers octets d'un document cible ne retiennent pas les informations de format de codage du document, et il est impossible d'obtenir le format de codage du document.
(ZH) 本发明提供一种选择读取目标文档的编码格式的方法及其系统,首先通过参考编码格式读取参考文档获得乱码模式,然后在对目标文档读取时,对于每种编码格式,将该编码格式读取目标文档时产生的数据与确定的乱码模式进行比较,确定利用该编码格式读取目标文档时产生的乱码;再统计利用每种编码格式读取目标文档时产生的乱码,并进行比较,然后确定读取目标文档的编码格式。上述技术方案有效避免了现有技术中只是读出目标文档的前几个字节,判定这些字节的值,从而得知其编码的格式,但是,有时候,目标文档的前几个字节并没有保留该文档的编码格式信息,无法获得该文档的编码格式的问题。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)