国際・国内特許データベース検索
このアプリケーションの一部のコンテンツは現在ご利用になれません。
この状況が続く場合は、次のお問い合わせ先までご連絡ください。ご意見・お問い合わせ
1. (WO2012008503) パッセージ抽出装置及びパッセージ抽出方法
Document

明 細 書

発明の名称 パッセージ抽出装置及びパッセージ抽出方法

技術分野

0001  

背景技術

0002   0003   0004   0005   0006  

先行技術文献

非特許文献

0007  

発明の概要

発明が解決しようとする課題

0008  

課題を解決するための手段

0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021  

発明の効果

0022   0023  

図面の簡単な説明

0024  

発明を実施するための形態

0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107  

符号の説明

0108  

請求の範囲

1   2   3   4   5   6   7   8   9   10   11   12   13  

図面

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   40   41  

明 細 書

発明の名称 : パッセージ抽出装置及びパッセージ抽出方法

技術分野

[0001]
 本発明は、着目文が成立する状況とともに、対立文が成立する状況を端的に説明した文章を得るパッセージ抽出に関する。

背景技術

[0002]
 利用者が文の真偽について、世の中に出回っている情報に照らし合わせて正しいか否かを判断したいとする。このとき、その文がいかなる状況においても真であったり偽であったりすることもあるが、ある状況においては真であり、また別の状況においては偽であることが多く観察される。
[0003]
 このような場合、どのような状況においては着目文の内容が成り立ち、また別のどのような状況で対立文の内容が成り立つのかを端的に説明した文章を見つけることができれば、真偽の判断に役立つ。
[0004]
 例えば、着目文の「ディーゼル車は環境に良い。」ということの真偽を知りたいとする。対立文は「ディーゼル車は環境に悪い。」となる。実は、いずれの内容も状況の如何によって真である。
[0005]
 例えば、「CO2(温室効果ガス)に重点を置くか、NOx(光化学スモッグなどの空気の汚れ)に重点を置くか、の違いによって評価が分かれてしまったと思います。ディーゼルエンジンはガソリンエンジンに比べCO2の排出量は少ないが、NOxと固形物の排出が多いと言われてきましたが、触媒やフィルターの発達によって、画期的に改善されてきており、燃費の良さもあって、ヨーロッパでは好評を受けています。」というような文章を、自動的に見つけられることが望ましい。
[0006]
 非特許文献1には、二つの文が対立しているか否かの判断をする手法と、ある一つの文に条件となる表現が含まれているか否かを判断する手法が開示されている。また、非特許文献2には、複数の文章について、それらを端的に説明する別の文章を見つける要約手法が開示されている。しかし、これらの既知の方法においても、上述の目的を達成することはできない。

先行技術文献

非特許文献

[0007]
非特許文献1 : 村上他、「文間意味的関係認識による言語マップ生成」,言語処理学会第16回年次大会,2010年
非特許文献2 : R.Mihalcea et al. TextRank: Bring order into texts.In Proc. of EMNL 2004, 2004年

発明の概要

発明が解決しようとする課題

[0008]
 解決しようとする問題点は、利用者が入力した、真偽の判断をしたいと思っている事柄を表す着目文が成立する状況とともに、着目文と真偽が反対となる対立文が成立する状況を端的に説明した文章を得る直接調停要約を実現することを課題とする。

課題を解決するための手段

[0009]
 本願発明に係るパッセージ抽出装置は、
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置であって、以下の要素を有することを特徴とする
(1)着目言明を入力する着目言明入力部
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定部
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索部
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出部
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出部
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出部
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力部。
[0010]
 また、パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部と、
 前記着目言明で検索された文書及び/又は対立言明で検索された文書に含まれる文毎に、当該文に含む肯定側特徴語と否定側特徴語の数を計数して文スコアとする文スコア算出部を有し、
 前記パッセージスコア算出部は、パッセージに含まれる文のうち最大の文スコアをパッセージスコアとすることを特徴とする。
[0011]
 また、前記特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記文スコア算出部は、当該文に含むトピック特徴語の数を計数して文スコアに加えることを特徴とする。
[0012]
 また、前記パッセージスコア算出部は、パッセージに肯定側特徴語、否定側特徴語、及びトピック特徴語を含む場合に、最大の文スコアに1より大きいボーナス係数を乗じてパッセージスコアとすることを特徴とする。
[0013]
 また、前記文スコア算出部は、パッセージに肯定側特徴語と否定側特徴語のいずれか一方と、トピック特徴語を含む場合に、1より大きい低ボーナス係数を文スコアに乗じ、パッセージに肯定側特徴語と否定側特徴語の両方と、トピック特徴語を含む場合に、低ボーナス係数より大きい高ボーナス係数を文スコアに乗じることを特徴とする。
[0014]
 更に、文スコアに基づいてパッセージの範囲を設定するパッセージ範囲設定部を有することを特徴とする。
[0015]
 また、パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部を有し、
 前記パッセージスコア算出部は、当該パッセージに含まれる肯定側特徴語の数と否定側特徴語の数に基づいて、パッセージスコアを算出することを特徴とする。
[0016]
 また、特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記パッセージスコア算出部は、更に、当該パッセージに含まれるトピック特徴語の数に基づいて、パッセージスコアを算出することを特徴とする。
[0017]
 また、パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部を有し、
 前記パッセージスコア算出部は、肯定側特徴語毎に、当該パッセージに含まれる文のうち、当該肯定側特徴語を含む文の数を計数して肯定側特徴語の出現度数を求め、否定側特徴語毎に、当該パッセージに含まれる文のうち、当該否定側特徴語を含む文の数を計数して否定側特徴語の出現度数を求め、肯定側特徴語の出現度数と否定側特徴語の出現度数に基づいて、パッセージスコアを算出することを特徴とする。
[0018]
 また、前記特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記パッセージスコア算出部は、更に、トピック特徴語毎に、当該パッセージに含まれる文のうち、当該トピック特徴語を含む文の数を計数してトピック特徴語の出現度数を求め、トピック特徴語の出現度数に基づいて、パッセージスコアを算出することを特徴とする。
[0019]
 また、前記特徴語判定部は、単語スコアに基づいて、単語毎に着目言明に対する肯定の特性の順位と、着目言明に対する否定の特性の順位を求め、着目言明に対する肯定の特性の順位と着目言明に対する否定の特性の順位に基づいて、肯定側特徴語と否定側特徴語を判定することを特徴とする。
[0020]
 本願発明に係るパッセージ抽出方法は、
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置によるパッセージ抽出方法であって、以下の要素を有することを特徴とする
(1)着目言明を入力する着目言明入力工程
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定工程
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索工程
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出工程
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出工程
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出工程
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力工程。
[0021]
 本願発明に係るプログラムは、
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置となるコンピュータに、以下の手順を実行させることを特徴とする
(1)着目言明を入力する着目言明入力手順
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定手順
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索手順
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出手順
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出手順
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出手順
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力手順。

発明の効果

[0022]
 Web上の情報信憑性に関する利用者の判断を支援する直接調停要約の自動生成を実現することができる。直接調停要約とは、対立しているようにみえる二つの言明が実は共存可能である場合に、共存可能となる状況を簡潔に説明している文章をWeb文書から見つける要約である。
[0023]
 特に、着目言明との関連性、公平性、特徴語の密集度に基づいて直接調停要約を生成する。着目言明との関連性は、着目言明中の単語を含んでいるか否かによって近似的に求められると考えられる。公平性は、着目言明を肯定する意見や根拠等と否定する意見や根拠等の両方を等しく言及しているかということである。両方の意見や根拠等において対となる単語を含んでいるか否かによって近似的に求められると考えられる。特徴語について高い密集度をもつパッセージは、簡潔な要約としての妥当性に加えて、両方の意見や根拠等を対比的に記述していることが多く、調停要約として、より適切であると考えられる。

図面の簡単な説明

[0024]
[図1] 図1は、全体処理フローを示す図である。
[図2] 図2は、パッセージ抽出装置のうち着目言明入力と対立言明特定に係る構成を示す図である。
[図3] 図3は、対立言明特定処理フローを示す図である。
[図4] 図4は、パッセージ抽出装置のうち言明関連文書検索に係る構成を示す図である。
[図5] 図5は、言明関連文書検索処理フローを示す図である。
[図6] 図6は、パッセージ抽出装置のうち文書頻度算出に係る構成を示す図である。
[図7] 図7は、文書頻度算出処理フローを示す図である。
[図8] 図8は、純着目検索文書頻度算出処理フローを示す図である。
[図9] 図9は、純対立検索文書頻度算出処理フローを示す図である。
[図10] 図10は、重複検索文書頻度算出処理フローを示す図である。
[図11] 図11は、パッセージ抽出装置のうち単語スコア算出に係る構成を示す図である。
[図12] 図12は、単語スコア算出処理フローを示す図である。
[図13] 図13は、パッセージ抽出装置のうちパッセージ範囲設定に係る構成を示す図である。
[図14] 図14は、パッセージ範囲設定処理フローを示す図である。
[図15] 図15は、パッセージ抽出装置のうちパッセージスコア算出に係る構成を示す図である。
[図16] 図16は、パッセージスコア算出処理フローを示す図である。
[図17] 図17は、パッセージ抽出装置のうちパッセージ選択とパッセージ出力に係る構成を示す図である。
[図18] 図18は、実施の形態2におけるパッセージ抽出装置のうち単語スコア算出に係る構成を示す図である。
[図19] 図19は、実施の形態2における単語スコア算出処理フローを示す図である。
[図20] 図20は、実施の形態2におけるパッセージスコア算出処理フローを示す図である。
[図21] 図21は、実施の形態3における単語スコア算出処理フローを示す図である。
[図22] 図22は、実施の形態4における単語スコア算出処理フローを示す図である。
[図23] 図23は、実施の形態5における単語スコア算出処理フローを示す図である。
[図24] 図24は、実施の形態5におけるパッセージスコア算出処理フローを示す図である。
[図25] 図25は、実施の形態6における単語スコア算出処理フローを示す図である。
[図26] 図26は、実施の形態7における単語スコア算出処理フローを示す図である。
[図27] 図27は、実施の形態8における単語スコア算出処理フローを示す図である。
[図28] 図28は、実施の形態9における全体処理フローを示す図である。
[図29] 図29は、パッセージ抽出装置のうち特徴語判定に係る構成を示す図である。
[図30] 図30は、特徴語判定処理フロー(その1)を示す図である。
[図31] 図31は、特徴語判定処理フロー(その2)を示す図である。
[図32] 図32は、実施の形態9におけるパッセージスコア算出処理フローを示す図である。
[図33] 図33は、実施の形態10におけるパッセージスコア算出処理フローを示す図である。
[図34] 図34は、実施の形態11における特徴語判定処理フローを示す図である。
[図35] 図35は、実施の形態12における全体処理フローを示す図である。
[図36] 図36は、文スコア算出処理フローを示す図である。
[図37] 図37は、実施の形態12におけるパッセージスコア算出処理フローを示す図である。
[図38] 図38は、実施の形態13におけるパッセージスコア算出処理フローを示す図である。
[図39] 図39は、実施の形態14における文スコア算出処理フローを示す図である。
[図40] 図40は、実施の形態15におけるパッセージ範囲設定処理フローを示す図である。
[図41] 図41は、パッセージ抽出装置のハードウェアの構成を示す図である。

発明を実施するための形態

[0025]
 実施の形態1.
パッセージ抽出装置が、インターネットやイントラネットなどのネットワークを介してクライアント端末と接続するサーバである場合には、自ら保持する検索エンジンを利用し、あるいはインターネットやイントラネットなどのネットワークを介して他の検索サーバを利用して文書検索し、パッセージを抽出するように構成される。利用者はクライアント端末からパッセージ抽出装置に着目言明を送信し、抽出結果をしてパッセージを受信する。
[0026]
 パッセージ抽出装置が利用者のクライアント端末である場合には、インターネットやイントラネットなどのネットワークを介して検索サーバを利用して文書検索し、パッセージを抽出するように構成される。クライアント端末は文字入力デバイスから着目言明を受け付け、抽出結果をしてパッセージを画面に表示する。
[0027]
 図1は、全体処理フローを示す図である。パッセージ抽出装置の動作について説明する。着目言明入力処理(S101)では、真偽(肯定と否定)を判断したい内容を示す着目言明を入力する。対立言明特定処理(S102)では、着目言明の内容と対立する内容の対立言明を特定する。
[0028]
 言明関連文書検索処理(S103)では、着目言明と対立言明を条件として言明関連文書を検索する。言明関連文書は、純着目検索文書集合と純対立検索文書集合と重複検索文書集合に分別する。
[0029]
 文書頻度算出処理(S104)では、所定の単語が文書集合中に出現する文書の数である文書頻度を算出する。具体的には、純着目検索文書集合に対する純着目検索文書頻度と、純対立検索文書集合に対する純対立検索文書頻度と、重複検索文書集合に対する重複検索文書頻度を算出する。
[0030]
 単語スコア算出処理(S105)では、着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する。単語スコアは、両特性を反対特性として一次元的に示す肯否スコアである場合と、両特性をそれぞれ独立して示す肯定スコアと否定スコアである場合がある。
[0031]
 パッセージ範囲設定処理(S106)では、パッセージ範囲を判定する。パッセージは、検索文書中の部分的な文の連なりである。パッセージは固定サイズとする場合と、任意サイズとする場合がある。
[0032]
 パッセージスコア算出処理(S107)では、着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出する。つまり、パッセージが肯定の特性を備え、更に否定の特性を備えるという条件をどの程度達成しているかを数値化する。また、肯定と否定の前提となる命題あるいは論題(トピック)の適応の度合いも合わせて評価することもある。パッセージスコアの算出においては、単語スコアを直接用いる方法の他に、単語スコアを基礎にして定めた特徴語の出現態様に従って判断する方法、あるいは文スコアを介する方法など、間接的に単語スコアを用いる方法が考えられる。
[0033]
 パッセージ選択処理(S108)では、パッセージスコアに基づいてパッセージを選択する。大きな値、つまり優位なスコアを優先して選択する。そして、パッセージ出力処理(S109)では、選択したパッセージを出力する。
[0034]
 まず、着目言明入力処理(S101)と対立言明特定処理(S102)について説明する。図2は、パッセージ抽出装置のうち着目言明入力と対立言明特定に係る構成を示す図である。パッセージ抽出装置は、着目言明入力部201、着目言明記憶部202、対立言明特定部203、及び対立言明記憶部204を有する。
[0035]
 着目言明入力部201は、着目言明を入力し、着目言明記憶部202に記憶させる。着目言明は、真偽を判断する事項を示す自然文あるいは句である。主には「ディーゼル車は環境に良い。」などの自然文であるが、「環境に良いディーゼル車」などの句に対しても有効である。例えば、操作者が文字入力デバイスを介して入力する。あるいは、ネットワークを介してクライアント端末から受信する。
[0036]
 対立言明特定部203は、着目言明記憶部202から着目言明を読み出し、対立言明を生成する。図3は、対立言明特定処理フローを示す図である。着目言明に含まれる内容語を特定する(S301)。内容語は、文法的な役割を持つ機能語以外の一般的な意味を持つ語である。この例では、形容詞、動詞、名詞、サ変名詞を対象とする。そして、それらの内容語毎に(S302)、対義語があるか判定し(S303)、対義語がある場合に、着目言明中の当該内容語を当該対義語に置き換えて、対立言明とする(S304)。対義語は、対義語辞書データベースから取得する。すべての内容語について処理した時点で終了する(S305)。つまり、対義語が存在した数の対立言明を生成して、対立言明記憶部204に記憶させる。着目言明が自然文である場合には、対立言明も自然文であり、着目言明が句である場合には、対立言明も句となる。例えば、「ディーゼル車は環境に良い。」という着目言明に対して「ディーゼル車は環境に悪い。」という対立言明が生成され、「環境に良いディーゼル車」という着目言明に対して「環境に悪いディーゼル車」という対立言明が生成される。
[0037]
 この例では、着目言明から対義語を用いて対立言明を生成したが、文法的に否定形に変換する方法もある。例えば、肯定文を否定文に変換する。あるいは、着目言明の入力と合わせて対立言明を入力する方法もある。つまり、着目言明と対立言明を対として受け付ける。対立言明を受け付ける方法では、利用者が意識する命題あるいは論題に沿った適切な対立言明を特定できるという利点がある。
[0038]
 続いて、言明関連文書検索処理(S103)について説明する。図4は、パッセージ抽出装置のうち言明関連文書検索に係る構成を示す図である。パッセージ抽出装置は、着目言明記憶部202と対立言明記憶部204の他、言明関連文書検索部401、純着目検索文書記憶部402、純対立検索文書記憶部403、及び重複検索文書記憶部404を備えている。
[0039]
 図5は、言明関連文書検索処理フローを示す図である。まず、着目言明を条件として文書を検索して(S501)、着目言明の検索結果を得る。検索対象は、Webあるいは文書データベースである。Webを対象とする場合には、Web文書のURL(検索文書識別情報の例)と、Web文書のデータを取得する。文書データベースを対象とする場合には、文書ID(検索文書識別情報の例)と、文書データを取得する。
[0040]
 更に、対立言明を条件として文書を検索して(S502)、対立言明の検索結果を得る。検索対象は、同様にWebあるいは文書データベースである。Webを対象とする場合には、Web文書のURL(検索文書識別情報の例)と、Web文書のデータを取得する。文書データベースを対象とする場合には、文書ID(検索文書識別情報の例)と、文書データを取得する。
[0041]
 検索エンジンをパッセージ抽出装置内部に備えている場合には、内部インターフェースに従って検索条件を渡して、検索結果を受ける。外部の検索エンジンを利用する場合には、インターネットやイントラネットなどの通信を介して検索条件を送信して、検索結果を受信する。
[0042]
 この例では、検索エンジンが検索条件として自然文や句を受け付けることを前提としているが、単語による論理式を検索条件とする検索エンジンを用いることもできる。その場合には、言明関連文書検索処理(S103)において、自然文や句から内容語を特定して、例えばその内容語をAND条件で連結して論理式を生成する。
[0043]
 そして、検索結果に含まれる文書を分類する。着目言明の検索結果に含まれ、対立言明の検索結果に含まれない文書を純着目検索文書として文書IDと対応付けて、純着目検索文書記憶部402に記憶する(S503)。対立言明の検索結果に含まれ、着目言明の検索結果に含まれない文書を純対立検索文書として文書IDと対応付けて、純対立検索文書記憶部403に記憶する(S504)。着目言明の検索結果と対立言明の検索結果に含まれる文書を重複検索文書として文書IDと対応付けて、重複検索文書記憶部404に記憶する(S505)。文書IDは、検索結果の文書URLを用いてもよい。また、新たに振り直してもよい。
[0044]
 続いて、文書頻度算出処理(S104)について説明する。図6は、パッセージ抽出装置のうち文書頻度算出に係る構成を示す図である。パッセージ抽出装置は、純着目検索文書記憶部402、純対立検索文書記憶部403、及び重複検索文書記憶部404に加えて、文書頻度算出部601と単語テーブル602を備えている。単語テーブル602は、単語毎にレコードを設け、純着目検索文書頻度と純対立検索文書頻度と重複検索文書頻度と全検索文書頻度を対応付けて記憶するように構成されている。
[0045]
 図7は、文書頻度算出処理フローを示す図である。純着目検索文書頻度算出処理(S701)と、純対立検索文書頻度算出処理(S702)と、重複検索文書頻度算出処理(S703)を順次行う。純着目検索文書頻度は、対象の単語が純着目検索文書集合中に出現する純着目検索文書の数である。同様に、純対立検索文書頻度は、対象の単語が純対立検索文書集合中に出現する純対立検索文書の数であり、重複検索文書頻度は、対象の単語が重複検索文書集合中に出現する重複検索文書の数である。更に、全検索文書頻度は、対象の単語が純着目検索文書、純対立検索文書、及び重複検索文書の全体集合中に出現する文書の数である。
[0046]
 純着目検索文書頻度算出処理(S701)を図示する。図8は、純着目検索文書頻度算出処理フローを示す図である。純着目検索文書毎に以下の処理を繰り返す(S801)。当該純着目検索文書に含まれる単語を順次特定し、以下の処理を繰り返す(S802)。このとき、同一の文書に複数含まれる単語は、一度のみ処理する。つまり、重複は除外する。単語テーブル602に当該単語のレコードがない場合には(S803)当該単語のレコードを新たに追加する(S804)。単語IDと単語を書き込む。文書頻度は、いずれも初期値を0とする。そして、純着目検索文書頻度と全検索文書頻度に1を加える(S805)。この動作を当該純着目検索文書に含まれるすべての単語について処理して(S806)、次の純着目検索文書の処理に移行する。すべての純着目検索文書について処理した時点で終了する(S807)。
[0047]
 純対立検索文書頻度算出処理(S702)も、同様に純対立検索文書頻度と全検索文書頻度を計数する。図9は、純対立検索文書頻度算出処理フローを示す図である。純対立検索文書毎に以下の処理を繰り返し(S901)、更に純対立検索文書に含まれる単語毎に処理を繰り返す(S902)。そして、純対立検索文書頻度と全検索文書頻度に1を加える(S905)。前述と同様に同一文書内で2回目以降に出現する単語は無視する。
[0048]
 重複検索文書頻度算出処理(S703)も、同様に重複検索文書頻度と全検索文書頻度を計数する。図10は、重複検索文書頻度算出処理フローを示す図である。重複検索文書毎に以下の処理を繰り返し(S1001)、更に重複検索文書に含まれる単語毎に処理を繰り返す(S1002)。そして、重複検索文書頻度と全検索文書頻度に1を加える(S1005)。この処理も同様に、文書内に同じ単語が複数回出現しても1回出現として計数する。
[0049]
 続いて、単語スコア算出処理(S105)について説明する。図11は、パッセージ抽出装置のうち単語スコア算出に係る構成を示す図である。パッセージ抽出装置は、単語テーブル602の他、単語スコア算出部1101と単語スコアテーブル1102を有している。
[0050]
 この例で、単語スコアは「肯否スコア=純着目検索文書頻度-純対立検索文書頻度」である。この単語スコアは、相反する肯定と否定の両方の特性をプラスとマイナスの極性で示している。尚、他の単語スコアの例については、後に述べる。
[0051]
 図12は、単語スコア算出処理フローを示す図である。単語毎に(S1201)、単語テーブル602から純着目検索文書頻度と純対立検索文書頻度を取得して、純着目検索文書頻度から純対立検索文書頻度を引いて、差を求める(S1202)、そして、差を肯否スコア(単語スコア)として、単語IDに対応付けて記憶する(S1203)。この処理を、すべての単語について行う(S1204)。
[0052]
 続いて、パッセージ範囲設定処理(S106)について説明する。図13は、パッセージ抽出装置のうちパッセージ範囲設定に係る構成を示す図である。パッセージ抽出装置は、純着目検索文書記憶部402、純対立検索文書記憶部403、及び重複検索文書記憶部404の他、パッセージ範囲判定部1301とパッセージテーブル1302を備えている。
[0053]
 図14は、パッセージ範囲設定処理フローを示す図である。検索文書毎に以下の処理を繰り返す(S1401)。先頭から1分ずつ順次開始文を選択し(S1402)、開始文から、所定サイズ内の最大連続文(パッセージ)を特定する(S1403)。パッセージIDに対応付けて、文書ID、開始文ID、終了文IDを記憶する(S1404)。文書ID、開始文ID、終了文IDによりパッセージ範囲が設定される。すべての文について処理した時点で次の検索文書の処理に移行し(S1405)、すべての文書について処理した時点で終了する(S1406)。所定サイズは、全体の文字数、所定文字数からなる行の数、あるいは文の数などが考えられる。パッセージの範囲は、文単位ではなく文字単位で設定することもできる。パッセージ範囲を設定する検索文書は、着目言明で検索された文書及び対立言明で検索された文書を対象とする場合の他、着目言明で検索された文書のみ、あるいは対立言明で検索された文書のみを対象とすることもできる。
[0054]
 続いて、パッセージスコア算出処理(S107)について説明する。図15は、パッセージ抽出装置のうちパッセージスコア算出に係る構成を示す図である。パッセージ抽出装置は、純着目検索文書記憶部402、純対立検索文書記憶部403、重複検索文書記憶部404、単語テーブル602、及び単語スコアテーブル1102の他、パッセージスコア算出部1301とパッセージテーブル1302を備えている。
[0055]
 図16は、パッセージスコア算出処理フローを示す図である。設定したパッセージ毎に以下の処理を繰り返す(S1601)。パッセージテーブル1302に設定したパッセージ範囲(文書ID、開始文ID、終了文ID)に従って、各検索文書記憶部からパッセージを読み込む(S1602)。当該パッセージに含まれる単語を特定し、それぞれの単語の肯否スコアを単語スコアテーブル1102から読み取り、比較して最大の肯否スコアを判定する(S1603)。そして、最大の肯否スコアを最肯定スコアとする(S1604)。最肯定スコアは、単語の肯定特性が最も高いもののその程度を値の大きさで示している。同様にパッセージに含まれる単語のうち、最小の肯否スコアも判定し(S1605)、最小の肯否スコアの絶対値を最否定スコアとする(S1606)。最否定スコアは、単語の否定特性が最も高いもののその程度を値の大きさで示している。最肯定スコアに最否定スコアを乗じて、積をパッセージスコアとして記憶する(S1607)。これらの処理をすべてのパッセージについて処理した時点で終了する(S1608)。尚、最肯定スコアに最否定スコアを加えて、和をパッセージスコアとする方法もある。また、最肯定スコア及び最否定スコアがそれぞれ最低値の条件を満たさない場合には、パッセージスコアを無効とすることも有効である。
[0056]
 最後に、パッセージ選択処理(S108)とパッセージ出力処理(S109)について説明する。図17は、パッセージ抽出装置のうちパッセージ選択とパッセージ出力に係る構成を示す図である。パッセージ抽出装置は、純着目検索文書記憶部402、純対立検索文書記憶部403、重複検索文書記憶部404、及びパッセージテーブル1302の他パッセージ選択部1701とパッセージ出力部1702を備えている。
[0057]
 パッセージ選択部1701は、パッセージテーブル1302からパッセージスコアを読み取り、最大のパッセージスコアを特定する。そして、当該パッセージスコアのパッセージ範囲(文書ID、開始文ID、終了文ID)を読み取る。パッセージ出力部1702は、当該パッセージ範囲(文書ID、開始文ID、終了文ID)のパッセージを検索文書記憶部から読み取り、出力する。出力形態は、表示、印刷、送信、記憶媒体への記憶などが想定される。複数のパッセージを出力する場合には、パッセージスコアの大きい順に、当該複数分のパッセージを特定して、出力する。
[0058]
 実施の形態2.
上述の例では、単一の肯否スコアで肯定特性と否定特性の両方を示す例を説明したが、単語スコアとして、肯定特性を示す肯定側スコアと否定特性を示す否定側スコアを別個に設けることもできる。この例では、単語スコアは「肯定側スコア=純着目検索文書頻度-純対立検索文書頻度」と「否定側スコア=純対立検索文書頻度-純着目検索文書頻度」の2つとなる。
[0059]
 図18は、実施の形態2におけるパッセージ抽出装置のうち単語スコア算出に係る構成を示す図である。この例では、単語スコア算出部1101は、単語毎に肯定側スコアと否定側スコアを単語スコアテーブル1102に記憶させる。
[0060]
 本形態における単語スコア算出処理(S105)について説明する。図19は、実施の形態2における単語スコア算出処理フローを示す図である。この例では、純着目検索文書頻度から純対立検索文書頻度を引いて、文書頻度の差を求め(S1902)、文書頻度の差を肯定側スコア(単語スコア)として、単語IDに対応付けて単語スコアテーブル1102に記憶する(S1903)。更に、純対立検索文書頻度から純着目検索文書頻度を引いて、別に文書頻度の差を求め(S1904)、別の文書頻度の差も否定側スコア(単語スコア)として、単語IDに対応付けて単語スコアテーブル1102に記憶する(S1905)。
[0061]
 本形態におけるパッセージスコア算出処理(S107)について説明する。図20は、実施の形態2におけるパッセージスコア算出処理フローを示す図である。パッセージに含まれる単語のうち、最大の肯定側スコアを判定して(S2003)、最大の肯定側スコアを最肯定スコアとし(S2004)、パッセージに含まれる単語のうち、最大の否定側スコアを判定し(S2005)、最大の否定側スコアをそのまま最否定スコアに用いて、パッセージスコアを求める(S2006,S2007)。
[0062]
 実施の形態3.
実施の形態1では、各単語の検索文書頻度同士の差を単語スコアとしたが、各単語の検索文書頻度を文書数で割って、検索文書頻度の比率を求め、検索文書頻度の比率の差を単語スコアとすることも有効である。この例で、単語スコアは「肯否スコア=(純着目検索文書頻度/純着目検索文書数)-(純対立検索文書頻度/純対立検索文書数)」である。
[0063]
 図21は、実施の形態3における単語スコア算出処理フローを示す図である。単語毎に(S2101)、純着目検索文書頻度を純着目検索文書数で割って、純着目検索文書頻度の比率を求め(S2102)、更に純対立検索文書頻度を純対立検索文書数で割って、純対立検索文書頻度の比率を求める(S2103)。そして、純着目検索文書頻度の比率から純対立検索文書頻度の比率を引いて、文書頻度の比率の差を求め(S2104)、この文書頻度の比率の差を肯否スコア(単語スコア)として、単語IDに対応付けて記憶する(S2105)。
[0064]
 純着目検索文書の数と純対立検索文書の数が大きく相違する場合に、両文書間での1文書あたりのスコアに与える寄与度を均一化することができる。
[0065]
 実施の形態4.
肯定側スコアと否定側スコアで、検索文書頻度の比率の差を用いることも考えられる。この例で、単語スコアは「肯定側スコア=(純着目検索文書頻度/純着目検索文書数)-(純対立検索文書頻度/純対立検索文書数)」と「否定側スコア=(純対立検索文書頻度/純対立検索文書数)-(純着目検索文書頻度/純着目検索文書数)」である。
[0066]
 図22は、実施の形態4における単語スコア算出処理フローを示す図である。単語毎に(S2201)、前述と同様に、純着目検索文書頻度を純着目検索文書数で割って、純着目検索文書頻度の比率を求め(S2202)、純対立検索文書頻度を純対立検索文書数で割って、純対立検索文書頻度の比率を求める(S2203)。そして、純着目検索文書頻度の比率から純対立検索文書頻度の比率を引いて、文書頻度の比率の差を求めて(S2204)、この文書頻度の比率の差を肯定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2205)。更に、純対立検索文書頻度の比率から純着目検索文書頻度の比率を引いて、別に文書頻度の比率の差を求める(S2206)。別に求めた文書頻度の比率の差を否定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2207)。
[0067]
 実施の形態5.
実施の形態2では、文書頻度の差を単語スコアとしたが、文書頻度の比を単語スコアとすることもできる。この例で、単語スコアは「肯否スコア=純着目検索文書頻度/純対立検索文書頻度」である。この単語スコアは、単独で相反する肯定と否定の両方の特性を無限大と0の極値として示している。
[0068]
 図23は、実施の形態5における単語スコア算出処理フローを示す図である。単語毎に(S2301)、純着目検索文書頻度を純対立検索文書頻度で割って、文書頻度比を求め(S2302)、文書頻度比を肯否スコア(単語スコア)として、単語IDに対応付けて記憶する(S2303)。そして、すべての単語について処理した時点で終了する(S2304)。
[0069]
 図24は、実施の形態5におけるパッセージスコア算出処理フローを示す図である。パッセージに含まれる単語のうち、最大の肯否スコアを判定し(S2403)、最大の肯否スコアを最肯定スコアとする(S2404)。更に、パッセージに含まれる単語のうち、最小の肯否スコアを判定し(S2405)、最小の肯否スコアの逆数を最否定スコアとする(S2406)。最肯定スコアに最否定スコアを乗じて、積をパッセージスコアとして記憶する(S2407)。あるいは、最肯定スコアに最否定スコアを加えて、和をパッセージスコアとして記憶する(S2407)。前述と同様に、最低値の条件を課すこともできる。
[0070]
 実施の形態6.
比を指標とする場合、母数が0となるとその値が無限大となるため、母数に定数を加えることにより、指標の極大化を防ぐことが有効である。この例で、単語スコアは「肯否スコア=(純着目検索文書頻度+定数)/(純対立検索文書頻度+定数)」である。
[0071]
 図25は、実施の形態6における単語スコア算出処理フローを示す図である。単語毎に、純着目検索文書頻度に定数を加え(S2502)、純対立検索文書頻度に定数を加え(S2503)、加算した純着目検索文書頻度を加算した純対立検索文書頻度で割って、文書頻度比を求める(S2504)。文書頻度比を肯否スコア(単語スコア)として、単語IDに対応付けて記憶する(S2505)。すべての単語について処理して終了する(S2506)。定数は、例えば頻度の最小単位である「1」を用いる。
[0072]
 本形態のパッセージスコア算出処理は、前述の図24の通りである。
[0073]
 実施の形態7.
実施の形態6と同様に、比による指標の極大化を防ぐため、「肯定側スコア=純着目検索文書頻度/(純対立検索文書頻度+定数)」と「否定側スコア=純対立検索文書頻度/(純着目検索文書頻度+定数)」の2つの単語スコアを用いることも考えられる。
[0074]
 図26は、実施の形態7における単語スコア算出処理フローを示す図である。純対立検索文書頻度に定数を加え(S2602)、純着目検索文書頻度を、加算した純対立検索文書頻度で割って、文書頻度比を求める(S2603)。そして、この文書頻度比を肯定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2604)。更に、純着目検索文書頻度に定数を加え(S2605)、純対立検索文書頻度を、加算した純着目検索文書頻度で割って、別の文書頻度比を求める(S2606)。そして、別の文書頻度比を否定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2607)。
[0075]
 実施の形態8.
単語スコアの算出において、当該単語の検索文書全体に対する大域的重要性を反映させるために、単語スコアに全検索文書頻度を乗じる例について説明する。この例で、単語スコアは「肯定側スコア=(純着目検索文書頻度*全検索文書頻度)/(純対立検索文書頻度+定数)」と「否定側スコア=(純対立検索文書頻度*全検索文書頻度)/(純着目検索文書頻度+定数)」である。
[0076]
 図27は、実施の形態8における単語スコア算出処理フローを示す図である。純対立検索文書頻度に定数を加え(S2702)、純着目検索文書頻度を、加算した純対立検索文書頻度で割って、文書頻度比を求め(S2703)、その文書頻度比に全検索文書頻度を乗じる(S2704)。そして、積算した文書頻度比を肯定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2705)。更に、純着目検索文書頻度に定数を加え(S2706)、純対立検索文書頻度を、加算した純着目検索文書頻度で割って、別の文書頻度比を求め(S2707)、別の文書頻度比に全検索文書頻度を乗じる(S2708)。そして積算した別の文書頻度比を否定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2709)。
[0077]
 前述の他の単語スコア(実施の形態1乃至7)に対して、全検索文書頻度を乗じることも有効である。
[0078]
 実施の形態9.
前述の形態では、単語スコアの最大値によってパッセージスコアを算出したが、一定以上の単語スコアを有する単語を特徴語と定義して、その特徴語の個数によってパッセージスコアを定めることもできる。
[0079]
 図28は、実施の形態9における全体処理フローを示す図である。単語スコア算出処理(S105)に続いて、特徴語判定処理(S2801)を行う。特徴語判定処理(S2801)では、単語スコアを基準にして特性の強い単語を特徴語に分類する。
[0080]
 図29は、パッセージ抽出装置のうち特徴語判定に係る構成を示す図である。パッセージ抽出装置は、着目言明記憶部202、単語テーブル602、及び単語スコアテーブル1102の他、特徴語判定部2901、肯定側特徴語テーブル2902、否定側特徴語テーブル2903、及びトピック特徴語テーブル2904を備えている。肯定側特徴語は、対立言明には関連せず着目言明にのみ関連する話題を表す語句であり、否定側特徴語は、着目言明には関連せず対立言明にのみ関連する話題を表す語句である。また、トピック特徴語は、着目言明と対立言明に共通する話題を表す語句である。特徴語テーブルは、これらの特徴語の集合を記憶する。
[0081]
 肯否スコアを用いる場合の特徴語判定について説明する。図30は、特徴語判定処理フロー(その1)を示す図である。まず、着目言明の内容語を抽出する(S3001)。続いて、単語毎に以下の処理を繰り返す(S3002)。肯否スコアが肯定側閾値より大きい場合には(S3003)、当該単語を肯定側特徴語として肯定側特徴語テーブル2902に記憶する(S3004)。一方、肯否スコアが否定側閾値より小さい場合には(S3005)、否定側特徴語として否定側特徴語テーブル2903に記憶する(S3006)。いずれにも該当しない単語について、内容語と一致するか判定し(S3007)、内容語と一致する場合にはトピック特徴語としてトピック特徴語テーブル2904に記憶する(S3008)。この処理をすべての単語について処理したか(S3009)。
[0082]
 肯定側スコアと否定側スコアを用いる場合の特徴語判定について説明する。図31は、特徴語判定処理フロー(その2)を示す図である。肯定側スコアが肯定側閾値より大きい場合には(S3103)、当該単語を肯定側特徴語として肯定側特徴語テーブル2902に記憶する(S3104)。一方、否定側スコアが否定側閾値より大きい場合には(S3105)、当該単語を否定側特徴語として否定側特徴語テーブル2903に記憶する(S3106)。
[0083]
 図32は、実施の形態9におけるパッセージスコア算出処理フローを示す図である。肯定側特徴語毎にパッセージに含まれるかを判定し、出現する肯定側特徴語の数を得る(S3203)。否定側特徴語毎にパッセージに含まれるかを判定し、出現する否定側特徴語の数を得る(S3204)。トピック特徴語毎にパッセージに含まれるかを判定し、出現するトピック特徴語の数を得る(S3205)。そして、出現する肯定側特徴語の数、出現する否定側特徴語の数、及び出現するトピック特徴語数を積算して、積をパッセージスコアとする(S3206)。あるいは、出現する肯定側特徴語の数、出現する否定側特徴語の数、及び出現するトピック特徴語数を加算して、和をパッセージスコアとする(S3206)。その他、出現する肯定側特徴語の数と出現する否定側特徴語の数の積に、出現するトピック特徴語数を加えて、その和をパッセージスコアとする方法や、出現する肯定側特徴語の数と出現する否定側特徴語の数の和に、出現するトピック特徴語数を乗じて、その積をパッセージスコアとする方法なども考えられる。トピック特徴語数を用いずに、出現する肯定側特徴語の数と出現する否定側特徴語の数の積、あるいは出現する肯定側特徴語の数と出現する否定側特徴語の数の和をパッセージスコアとすることも可能である。上述の特徴語の数は、特徴語別の数、つまり特徴語の種類数である。
[0084]
 実施の形態10.
この実施の形態では、特徴語毎に、パッセージに含まれる文のうち、当該特徴語を含む文の数を算出して、当該特徴語の出現度数とする。この特徴語の出現度数を用いて、パッセージスコアを設定する。
[0085]
 図33は、実施の形態10におけるパッセージスコア算出処理フローを示す図である。肯定側特徴語毎に、パッセージに含まれる文のうち、当該語を含む文の数を算出し、当該肯定側特徴語の出現度数する(S3303)。否定側特徴語毎に、パッセージに含まれる文のうち、当該語を含む文の数を算出し、当該否定側特徴語の出現度数する(S3304)。トピック特徴語毎に、パッセージに含まれる文のうち、当該語を含む文の数を算出し、当該トピック特徴語の出現度数とする(S3305)。そして、全肯定側特徴語の出現度数の総数、全否定側特徴語の出現度数の総数、及び全トピック特徴語の出現度数の総数を積算して、積をパッセージスコアとする(S3306)。あるいは、全肯定側特徴語の出現度数の総数、全否定側特徴語の出現度数の総数、及び全トピック特徴語の出現度数の総数を加算して、和をパッセージスコアとする(S3306)。その他、全肯定側特徴語の出現度数の総数と全否定側特徴語の出現度数の総数の積に、を全トピック特徴語の出現度数の総数を加えて、その和をパッセージスコアとする方法や、全肯定側特徴語の出現度数の総数と全否定側特徴語の出現度数の総数の和に、全トピック特徴語の出現度数の総数を乗じて、その積をパッセージスコアとする方法なども考えられる。全トピック特徴語の出現度数の総数を用いずに、全肯定側特徴語の出現度数の総数と全否定側特徴語の出現度数の総数の積や、全肯定側特徴語の出現度数の総数と全否定側特徴語の出現度数の総数の和をパッセージスコアとすることも可能である。
[0086]
 実施の形態11.
単語スコアに基づいて順位を付けて、その順位を用いて特徴語を判定することもできる。
[0087]
 図34は、実施の形態11における特徴語判定処理フローを示す図である。各単語を肯定側スコアで順位付けし(S3402)、各単語を否定側スコアで順位付けし、単語毎に(S3404)、否定側スコア順位から肯定側スコア順位を引いた差が順位差閾値より大きい場合には(S3405)、肯定側特徴語として記憶する(S3406)。一方、肯定側スコア順位から否定側スコア順位を引いた差が順位差閾値より大きい場合には(S3407)、否定側特徴語として記憶する(S3408)。順位の差によらず、肯定側スコア順位が順位閾値より小さい場合に肯定側特徴語とし、否定側スコア順位が順位閾値より小さい場合に否定側特徴語とすることも可能である。
[0088]
 実施の形態12.
本実施の形態では、文に対して特徴語の出現数による文スコアを算出し、文スコアに基づいてパッセージスコアを求める例について説明する。
[0089]
 図35は、実施の形態12における全体処理フローを示す図である。特徴語判定処理(S2801)に続いて、文スコア算出処理(S3501)を行う。
[0090]
 文スコア算出処理(S3501)について説明する。図36は、文スコア算出処理フローを示す図である。各検索文書に含まれる文毎に以下の処理を繰り返す(S3601)。肯定側特徴語、否定側特徴語、及びトピック特徴語の各特徴語について(S3602)、当該文に当該特徴語が含まれるか判定し(S3603)、含まれる場合に特徴語の出現数(初期値0)に1を加える(S3604)。これをすべての特徴語について処理することにより(S3605)、特徴語の出現数を得て、これを当該文のスコアとして文スコア記憶部に文IDと対応付けて記憶する(S3606)。すべての文について特徴語の出現数を得て終了する(S3607)。
[0091]
 パッセージスコア算出処理(S106)について説明する。図37は、実施の形態12におけるパッセージスコア算出処理フローを示す図である。パッセージ毎に(S3701)、パッセージに含まれる文のスコアのうち、最大の文スコアを判定し(S3702)、最大の文スコアをパッセージスコアとする(S3703)。そして、すべてのパッセージについて処理して終了する(S3704)。
[0092]
 実施の形態13.
肯定側特徴語、否定側特徴語、及びトピック特徴語が含まれるパッセージのスコアを高める調整を行う形態について説明する。
[0093]
 図38は、実施の形態13におけるパッセージスコア算出処理フローを示す図である。パッセージ毎に(S3801)、前述と同様にパッセージに含まれる文のスコアのうち、最大の文スコアを判定する(S3802)。そして、パッセージに肯定側特徴語、否定側特徴語、及びトピック特徴語が含まれるか判定し(S3803)、いずれかの肯定側特徴語と、いずれかの否定側特徴語と、いずれかのトピック特徴語がすべて含まれている場合に、最大の文スコアにボーナス係数を乗じて、その積をパッセージスコアとする(S3804)。ボーナス係数は、1より大きい値である。肯定側特徴語、否定側特徴語、及びトピック特徴語のうち少なくとも1つが含まれていない場合には、ボーナス係数を乗じないで、最大の文スコアをパッセージスコアとする(S3805)。これを、すべてのパッセージについて処理して終了する(S3806)。
[0094]
 実施の形態14.
文スコア算出において、文中に出現する特徴語の組合せによって、文スコアを調整する形態について説明する。
[0095]
 図39は、実施の形態14における文スコア算出処理フローを示す図である。前述と同様に、各検索文書に含まれる文毎に(S3901)、特徴語の出現数を算出する(S3902)。もし、当該文が不十分な文である場合や省略文で有る場合には(S3903)、特徴語の出現数にペナルティ係数を乗じる(S3904)。ペナルティ係数は、1よりも小さい値である。トピック特徴語を含まない場合(S3905)と、トピック特徴語のみを含む場合には(S3905,S3906,S3907)、係数を乗じることなく特徴語の出現数を当該文のスコアとする(S3911)。トピック特徴語と肯定側特徴語を含み(S3905,S3906)、否定側特徴語を含まない場合には(S3908)、特徴語の出現数に低ボーナス係数を乗じて(S3909)、その積を当該文のスコアとする(S3911)。低ボーナス係数は、1より大きい値である。トピック特徴語を含み(S3905)、肯定側特徴語を含まず(S3906)、否定側特徴語を含む場合も(S3907)、低ボーナス係数を乗じて(S3909)、その積を当該文のスコアとする(S3911)。トピック特徴語と肯定側特徴語と否定側特徴語を含む場合には(S3905,S3906,S3908)、特徴語の出現数に高ボーナス係数を乗じて(S3910)、その積を当該文のスコアとする(S3911)。高ボーナス係数は、低ボーナス係数より大きい値である。すべての文について処理して終了する(S3912)。
[0096]
 実施の形態15.
文スコアに基づいて、有意なパッセージ範囲を可変長で設定する形態について説明する。
[0097]
 図40は、実施の形態15におけるパッセージ範囲設定処理フローを示す図である。文書毎に(S4001)、文書に含まれる文スコアを平滑化する(S4002)。例えば、対象となる文の前後所定範囲(窓内)の文スコアに対して、当該対象文との距離に応じた係数を乗じ、各文について得た積を合算して、平滑化した文スコアを得る。一般に、当該対象文と近い文には高い係数を用い、当該対象文と遠い文には低い係数を用いる。最も単純には、窓内の文スコアの平均を用いる方法もある。そして、文書内の最大の文スコアを特定し、その最大文スコアの所定割合(例えば1/N、N>1)を基準として、その基準以上の文スコアを有する連続する文の連なりをパッセージとして特定する(S4003)。そして、パッセージIDに対応付けて、文書ID、その連なりの開始文IDと終了文IDを記憶する(S4004)。これをすべての文書について行う(S4005)。
[0098]
 実施の形態16.
着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求める代わりにあるいは併せて、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求めることも有効である。
[0099]
 本実施の形態では、文書頻度算出部601による文書頻度算出(S104)に代えてあるいは併せて、文書集合内単語頻度算出部による文書集合内単語頻度算出処理を行なう。
[0100]
 文書集合内単語頻度算出処理では、純着目検索文書集合内単語頻度算出処理と、純対立検索文書集合内単語頻度算出処理と、重複検索文書集合内単語頻度算出処理を順次行う。純着目検索文書集合内単語頻度は、対象の単語が純着目検索文書集合中に出現する回数(頻度)である。同様に、純対立検索文書集合内単語頻度は、対象の単語が純対立検索文書集合中に出現する回数(頻度)であり、重複検索文書集合内単語頻度は、対象の単語が重複検索文書集合中に出現する回数(頻度)である。更に、全検索文書集合内単語頻度は、対象の単語が純着目検索文書、純対立検索文書、及び重複検索文書の全体集合中に出現する回数(頻度)である。
[0101]
 純着目検索文書集合内単語頻度算出処理では、図8のS805において、当該純着目検索文書に出現する当該単語の回数を算出し、純着目検索文書集合内単語頻度と全検索文書集合内単語頻度に、当該単語の回数を加える。他は、図8と同様である。純着目検索文書集合内単語頻度と全検索文書集合内単語頻度は、初期値0である。
[0102]
 純対立検索文書集合内単語頻度算出処理では、図9のS905において、当該対立検索文書に出現する当該単語の回数を算出し、純対立検索文書集合内単語頻度と全検索文書集合内単語頻度に、当該単語の回数を加える。他は、図9と同様である。純対立検索文書集合内単語頻度と全検索文書集合内単語頻度は、初期値0である。
[0103]
 重複検索文書集合内単語頻度算出処理では、図10のS1005において、当該重複検索文書に出現する当該単語の回数を算出し、重複検索文書集合内単語頻度と全検索文書集合内単語頻度に、当該単語の回数を加える。他は、図10と同様である。重複検索文書集合内単語頻度と全検索文書集合内単語頻度は、初期値0である。
[0104]
 単語スコア算出部1101における単語スコア算出処理(S105)においては、純着目検索文書頻度に代えてあるいは併せて、純着目検索文書集合内単語頻度を用い、純対立検索文書頻度に代えてあるいは併せて、純対立検索文書集合内単語頻度を用い、重複検索文書頻度に代えてあるいは併せて、重複検索文書集合内単語頻度を用い、全検索文書頻度に代えてあるいは併せて、全検索文書集合内単語頻度を用いる。
[0105]
 各検索文書頻度を各検索文書集合内単語頻度に置き換えて単語スコアを算出する方法の他、各検索文書頻度による第一の中間単語スコアと、各検索文書集合内単語頻度による第二の中間単語スコアをそれぞれ求めて、第一の中間単語スコアと第二の中間単語スコアに基づいて最終の単語スコアを算出することもできる。例えば、第一の中間単語スコアと第二の中間単語スコアを加えて和を最終の単語スコアとする。その際、第一の中間単語スコアと第二の中間単語スコアに重み付けすることも考えられる。また、第一の中間単語スコアと第二の中間単語スコアを積算して積を最終の単語スコアとする方法もある。
[0106]
 パッセージ抽出装置は、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。
[0107]
 パッセージ抽出装置のハードウェアの構成について説明する。図41は、パッセージ抽出装置のハードウェアの構成を示す図である。バスに、演算装置4101、データ記憶装置4102、メモリ4103、通信インターフェース4104、データ入力装置4105、データ出力装置4106が接続されている。データ記憶装置4102は、例えばROM(Read Only Memory)やハードディスクである。メモリ4103は、通常RAM(Random Access Memory)である。プログラムは、通常データ記憶装置4102に記憶されており、メモリ4103にロードされた状態で、順次演算装置4101に読み込まれ処理を行う。通信インターフェース4104は、ネットワークを介した通信に用いる。データ入力装置4105は、データの入力に用いる。データ出力装置4106は、データの出力に用いる。なお、プログラムは、通信インターフェース4104に接続されたネットワーク上のサーバに記憶され、実行時にメモリ4103にロードされる場合もある。

符号の説明

[0108]
 201  着目言明入力部
 202  着目言明記憶部
 203  対立言明特定部
 204  対立言明記憶部
 401  言明関連文書検索部
 402  純着目検索文書記憶部
 403  純対立検索文書記憶部
 404  重複検索文書記憶部
 601  文書頻度算出部
 602  単語テーブル
 1101  単語スコア算出部
 1102  単語スコアテーブル
 1301  パッセージ範囲判定部
 1302  パッセージテーブル
 1501  パッセージスコア算出部
 1701  パッセージ選択部
 1702  パッセージ出力部
 2901  特徴語判定部
 2902  肯定側特徴語テーブル
 2903  否定側特徴語テーブル
 2904  トピック特徴語テーブル
 4101  演算装置
 4102  データ記憶装置
 4103  メモリ
 4104  通信インターフェース
 4105  データ入力装置
 4106  データ出力装置

請求の範囲

[請求項1]
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置であって、以下の要素を有することを特徴とするパッセージ抽出装置
(1)着目言明を入力する着目言明入力部
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定部
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索部
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出部
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出部
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出部
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力部。
[請求項2]
 パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部と、
 前記着目言明で検索された文書及び/又は対立言明で検索された文書に含まれる文毎に、当該文に含む肯定側特徴語と否定側特徴語の数を計数して文スコアとする文スコア算出部を有し、
 前記パッセージスコア算出部は、パッセージに含まれる文のうち最大の文スコアをパッセージスコアとすることを特徴とする請求項1記載のパッセージ抽出装置。
[請求項3]
 前記特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記文スコア算出部は、当該文に含むトピック特徴語の数を計数して文スコアに加えることを特徴とする請求項2記載のパッセージ抽出装置。
[請求項4]
 前記パッセージスコア算出部は、パッセージに肯定側特徴語、否定側特徴語、及びトピック特徴語を含む場合に、最大の文スコアに1より大きいボーナス係数を乗じてパッセージスコアとすることを特徴とする請求項3記載のパッセージ抽出装置。
[請求項5]
 前記文スコア算出部は、パッセージに肯定側特徴語と否定側特徴語のいずれか一方と、トピック特徴語を含む場合に、1より大きい低ボーナス係数を文スコアに乗じ、パッセージに肯定側特徴語と否定側特徴語の両方と、トピック特徴語を含む場合に、低ボーナス係数より大きい高ボーナス係数を文スコアに乗じることを特徴とする請求項3記載のパッセージ抽出装置。
[請求項6]
 更に、文スコアに基づいてパッセージの範囲を設定するパッセージ範囲設定部を有することを特徴とする請求項2記載のパッセージ抽出装置。
[請求項7]
 パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部を有し、
 前記パッセージスコア算出部は、当該パッセージに含まれる肯定側特徴語の数と否定側特徴語の数に基づいて、パッセージスコアを算出することを特徴とする請求項1記載のパッセージ抽出装置。
[請求項8]
 特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記パッセージスコア算出部は、更に、当該パッセージに含まれるトピック特徴語の数に基づいて、パッセージスコアを算出することを特徴とする請求項7記載のパッセージ抽出装置。
[請求項9]
 パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部を有し、
 前記パッセージスコア算出部は、肯定側特徴語毎に、当該パッセージに含まれる文のうち、当該肯定側特徴語を含む文の数を計数して肯定側特徴語の出現度数を求め、否定側特徴語毎に、当該パッセージに含まれる文のうち、当該否定側特徴語を含む文の数を計数して否定側特徴語の出現度数を求め、肯定側特徴語の出現度数と否定側特徴語の出現度数に基づいて、パッセージスコアを算出することを特徴とする請求項1記載のパッセージ抽出装置。
[請求項10]
 前記特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記パッセージスコア算出部は、更に、トピック特徴語毎に、当該パッセージに含まれる文のうち、当該トピック特徴語を含む文の数を計数してトピック特徴語の出現度数を求め、トピック特徴語の出現度数に基づいて、パッセージスコアを算出することを特徴とする請求項9記載のパッセージ抽出装置。
[請求項11]
 前記特徴語判定部は、単語スコアに基づいて、単語毎に着目言明に対する肯定の特性の順位と、着目言明に対する否定の特性の順位を求め、着目言明に対する肯定の特性の順位と着目言明に対する否定の特性の順位に基づいて、肯定側特徴語と否定側特徴語を判定することを特徴とする請求項7、又は9記載のパッセージ抽出装置。
[請求項12]
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置によるパッセージ抽出方法であって、以下の要素を有することを特徴とするパッセージ抽出方法
(1)着目言明を入力する着目言明入力工程
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定工程
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索工程
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出工程
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出工程
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出工程
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力工程。
[請求項13]
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置となるコンピュータに、以下の手順を実行させるためのプログラム
(1)着目言明を入力する着目言明入力手順
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定手順
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索手順
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出手順
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出手順
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出手順
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力手順。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]

[ 図 13]

[ 図 14]

[ 図 15]

[ 図 16]

[ 図 17]

[ 図 18]

[ 図 19]

[ 図 20]

[ 図 21]

[ 図 22]

[ 図 23]

[ 図 24]

[ 図 25]

[ 図 26]

[ 図 27]

[ 図 28]

[ 図 29]

[ 図 30]

[ 図 31]

[ 図 32]

[ 図 33]

[ 図 34]

[ 図 35]

[ 図 36]

[ 図 37]

[ 図 38]

[ 図 39]

[ 図 40]

[ 図 41]