処理中

しばらくお待ちください...

設定

設定

1. WO2007108529 - 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム

公開番号 WO/2007/108529
公開日 27.09.2007
国際出願番号 PCT/JP2007/055958
国際出願日 23.03.2007
IPC
G06F 17/30 2006.01
G物理学
06計算;計数
F電気的デジタルデータ処理
17特定の機能に特に適合したデジタル計算またはデータ処理の装置または方法
30情報検索;そのためのデータベース構造
G06F 17/21 2006.01
G物理学
06計算;計数
F電気的デジタルデータ処理
17特定の機能に特に適合したデジタル計算またはデータ処理の装置または方法
20自然言語データの取扱い
21テキスト処理
CPC
G06F 40/289
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
279Recognition of textual entities
289Phrasal analysis, e.g. finite state techniques or chunking
G06Q 30/0241
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
QDATA PROCESSING SYSTEMS OR METHODS, SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES, NOT OTHERWISE PROVIDED FOR
30Commerce, e.g. shopping or e-commerce
02Marketing, e.g. market research and analysis, surveying, promotions, advertising, buyer profiling, customer management or rewards; Price estimation or determination
0241Advertisement
G06Q 30/0601
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
QDATA PROCESSING SYSTEMS OR METHODS, SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES, NOT OTHERWISE PROVIDED FOR
30Commerce, e.g. shopping or e-commerce
06Buying, selling or leasing transactions
0601Electronic shopping
出願人
  • 日本電気株式会社 NEC CORPORATION [JP/JP]; 〒1080014 東京都港区芝五丁目7番1号 Tokyo 7-1, Shiba 5-chome, Minato-ku, Tokyo 1080014, JP (AllExceptUS)
  • 水口 弘紀 MIZUGUCHI, Hironori [JP/JP]; JP (UsOnly)
  • 土田 正明 TSUCHIDA, Masaaki [JP/JP]; JP (UsOnly)
  • 久寿居 大 KUSUI, Dai [JP/JP]; JP (UsOnly)
  • 河合 英紀 KAWAI, Hideki [JP/JP]; JP (UsOnly)
発明者
  • 水口 弘紀 MIZUGUCHI, Hironori; JP
  • 土田 正明 TSUCHIDA, Masaaki; JP
  • 久寿居 大 KUSUI, Dai; JP
  • 河合 英紀 KAWAI, Hideki; JP
代理人
  • 山下 穣平 YAMASHITA, Johei; 〒1050001 東京都港区虎ノ門五丁目13番1号虎ノ門40MTビル 山下国際特許事務所 Tokyo YAMASHITA & ASSOCIATES Toranomon 40th MT Bldg. 13-1, Toranomon 5-chome Minato-ku, Tokyo 105-0001, JP
優先権情報
2006-08159823.03.2006JP
公開言語 (言語コード) 日本語 (JA)
出願言語 (言語コード) 日本語 (JA)
指定国 (国コード)
発明の名称
(EN) INFORMATION EXTRACTION SYSTEM, INFORMATION EXTRACTION METHOD, INFORMATION EXTRACTION PROGRAM, AND INFORMATION SERVICE SYSTEM
(FR) SYSTEME D'EXTRACTION D'INFORMATIONS, PROCEDE D'EXTRACTION D'INFORMATIONS, PROGRAMME D'EXTRACTION D'INFORMATIONS ET SYSTEME DE SERVICE D'INFORMATIONS
(JA) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
要約
(EN)
Words and phrases of the same type can be extracted from a plurality of documents of various forms. A storage device (400) stores the documents of various forms. A pattern candidate creating means (11) receives a list of input words selected as samples from words and phrases which are to be included in a dictionary. The pattern candidate creating means (11) selects one document, determines character strings before and after the input word in the document as pattern candidates, and stores them as pattern candidates (16). The pattern candidate creating means (11) performs this processing for each document. A word and phrase candidate creating means (12) extracts the words and phrases sandwiched between the patterns included in the pattern candidate (16) as word and phrase candidates which are to be outputted and stores them as a word and phrase candidate (17). A word and phrase selecting means (13) outputs a word and phrase candidate satisfying a predetermined condition out of the word and phrase candidates included in the word and phrase candidate (17) as an output word to an output device (300).
(FR)
Selon la présente invention, des mots et expression du même type peuvent être extraits d'une pluralité de documents de formes variées. Un dispositif de stockage (400) stocke les documents de formes variées. Un moyen de création de motif candidat (11) reçoit une liste de mots d'entrée sélectionnés en tant qu'échantillons à partir de mots et d'expressions à inclure dans un dictionnaire. Le moyen de création de motifs candidats (11) sélectionne un document, détermine des chaînes de caractère avant et après le mot entré dans le document sous forme de motifs candidats, et les stocke en tant que motifs candidats (16). Le moyen de création de motifs candidats (11) réalise ce traitement pour chaque document. Un moyen de création de mots et expressions candidats (12) extrait les mots et les expressions intercalées entre les motifs inclus dans le motif candidat (16) sous forme de mots et d'expressions candidats à sortir et les stocke sous forme de mots et d'expressions candidats (17). Un moyen de sélection de mots et d'expressions (13) sort un mot et une expression candidat satisfaisant une condition prédéterminée parmi les mots et expressions candidats compris dans le mot et la séquence candidats (17) sous forme de mot de sortie vers un dispositif de sortie (300)
(JA)
様々な形式の複数の文書から同種の語句を抽出することができるようにする。記憶装置400は、様々な形式の複数の文書を記憶する。パターン候補作成手段11は、辞書に含めるべき語句の中からサンプルとして選択された入力語のリストを受け取る。パターン候補作成手段11は、文書を1つ選択し、その文書における入力語の前後の文字列をパターンの候補として決定し、パターン候補16として記憶させる。パターン候補作成手段11は、この処理を各文書毎に行う。語句候補作成手段12は、パターン候補16に含まれる各パターンに挟まれる語句を出力すべき語句の候補として抽出し、語句候補17として記憶させる。語句選択手段13は、語句候補17に含まれる語句の候補のうち、所定の条件を満足する語句の候補を出力語として出力装置300に出力させる。
国際事務局に記録されている最新の書誌情報