■【補足】「連想支援システム」での情報取扱い単位について
今回は連想支援システムの操作に関する説明ではなく、語木を描画する際に使用する情報(文書や段落)を、 蓄積してある文書情報(源泉情報)から検索(抽出)し分析する際の情報の取扱単位について補足説明します。
連想支援システムでは、ユーザーが入力した「検索・抽出条件語」(=ユーザーの“視点”に相当)に合致した情報を、あらかじめ蓄積してある文書情報の中から検索・分析して描画や、ユーザー操作とのインタラクションに用いていることは、これまでに説明した通りです。
また、蓄積してある文書情報を検索し、ユーザーが指定した条件に合致している情報を抽出する際、抽出した情報を評価する単位が段落であるということも、説明した通りです。
一方、検索により抽出した情報を、語木を描画するための情報とするために分析する際には、複数の情報取扱い単位を選択できるようにしてあるのですが、この「情報取扱い単位」に関する部分の説明が不足していると感じましたので、今回説明します。
説明の内容は「描画した語木はどのような情報を用いて表現されたものか」の視点から捉えてお話するとわかりやすいと思いますので、この捉え方で説明します。
まず、語木を描画するのに用いている情報の取扱いの単位は、表1.に示した4種類から選択できるようにしてあります。
表1.描画用情報選択単位
情報取扱単位 | 実際の内容 |
---|---|
1)指定した特定の段落 もしくは段落群 |
ユーザーが指定した条件に合致しているとシステムが判断し、検索結果としてリストアップした段落の中から、一つ以上の段落を指定し描画対象情報とする。 複数の段落が指定された場合は、それら段落に含まれる情報をあわせて一つとし、描画対象情報として分析する。 |
2)全段落 | ユーザーが指定した条件に合致しているとシステムが判断し、リストアップしたすべての段落に含まれている情報をあわせて一つとし描画対象情報として分析する |
3)指定した特定の文書 もしくは文書群 |
ユーザーが指定した条件に合致しているとシステムが判断し、検索結果としてリストアップした段落の中から、一つ以上の段落を指定し、その段落がが含まれている文書を描画対象情報とする。 複数の段落が指定された場合は、それら段落を含む文書内の情報をあわせて一つとし、描画対象情報として分析する。 |
4)全文書 | ユーザーが指定した条件に合致しているとシステムが判断し、リストアップしたすべての段落について、その段落が含まれている文書内の情報をあわせて一つとし、描画対象情報として分析する。 |
この表だけでは少し分かりにくいかも知れませんが、表1.に示したのは、あくまで語木の描画に用いる情報の単位であり、どのような情報を描画するかを指定する単位と考えると良いと思います。
蓄積してある文書情報を対象として、ユーザーが指定した条件に合致した情報を検索する際、指定した条件に合致しているか否かを判断する時に用いられる情報の単位は「段落」であり、この単位は一定です。(蓄積した文書情報を検索し、ユーザーが指定した条件に合致しているか否かを判断する単位を「段落」とした理由ですが、これは先人の研究では、「一つの文書の中で、ある事柄について述べられている場所は、集中する傾向がある。」と言われているからです。これに従うことでより有効な知見が得られるのではないかと考え、システムに実装しました。)
なお、「段落」(正確には「形式段落」)をユーザーが指定した条件に合致しているか否かの判断に用いることは一般的ではないかも知れません。しかし文書の中からユーザーの情報要求に対応している部分だけを取り出し、提示し、その中から選択するようにすれば、ユーザーは本当に必要な情報か否かの判断がしやすくなるのではないかと考え、「段落」を判断の単位としました。
ならば、ユーザーが指定した語を含む文だけを抽出すればよいのではないかという考え方も出てくるでしょう。
しかしながら「情報は、その情報がおかれている文脈の中で意味を持つ」と言われていることを考慮すると、ユーザーに提示する情報を細かく(小さく)しすぎると、その情報がおかれている文脈がわからなくなり、誤った情報の取扱いや判断をしかねません。そこで、やはり本システムでは情報単位を「段落」としました。
指定した条件に合致した情報か否かを判断する単位を段落としましたので、語木の描画も段落単位で行うことができます。段落にはユーザーの情報要求に合致した内容が ”密に” 含まれているはずですので、これを用いれば「気づき」や「発想」につながる有効な語木が描画ができることを期待しました。
(この考えに基づいて、語木の描画を試みた結果を先に述べますと、ひとつの段落程度の情報量では、その中に「主張」や「特徴」など、情報が訴えている内容の意味を表現できるだけの十分な語木を描画することはできませんでした。これは描画に用いた情報量が少なすぎたことが原因です。ひとつの段落中の情報量(=文字情報の量)が多ければ、有効な語木が描画できたのかも知れませんが、一般に、長い段落は読み手を考慮していないものとして嫌われますので、情報量の多い段落というものは期待できるものではありません。)
他方、ひとつの段落やひとつの文書だけでなく、複数の段落や文書を指定し、それらを合わせて一つの情報と見なして描画対象とする方法も実装しました。これはユーザーが有効と感じた情報を集めて描画対象情報として分析したならば、より有効な知見が得られるのではないかと考えたことによるものです。以下、これまで説明した内容を図で説明し整理します。
図1.連想支援システムでの分析・語木描画対象情報の単位〔クリックして拡大〕
表1.に示した4種の情報取扱い単位について、例として図で表したのが図1.です。
赤色や青色で示した部分は、蓄積文書群の中でユーザーの情報要求に合致している文書もしくは段落であるとシステムが判断したものを示しており、赤色部分は段落を、青色部分は文書を示します。
図1.と表1.の内容は、それぞれ図1.の①は表1.の 1)に、②は 2)に、③は 3)に、④は4)に対応しています。
従って、例として示した図1.の蓄積文書群では、ユーザーの情報要求に合致した段落や文書は表2.に示す対応関係となります。
表2.分析・描画情報の具体例
図1.中の表記 | 対応する情報 |
---|---|
①特定段落 | 文書1の段落2に含まれている情報のみを扱う (図1.中では一つの段落を選択しているが、複数の段落を選択することもできる。) |
②全段落 | 文書1の段落2、文書2の段落3、文書3の段落1、文書4の段落1及び3の、計5段落に含まれている内容を合わせて一つの情報として扱う |
③特定文書 | 文書4に含まれている情報のみを扱う |
④全文書 | 文書1、文書2、文書3、文書4の、計4文書に含まれている内容を合わせて一つの情報として扱う |
これら4種の情報取扱い単位を用意したのは、描画対象とする情報にはその情報が作成された目的や用途により、内容を記載する体裁などに特徴があると考えたからです。
たとえば、特許情報(公報など)では、ひとつのクレームが非常に長い文章で記載された段落になっていることがあります。また、学術論文では、ひとつの段落は特許情報ほど長い文章では構成されていないものの、あるテーマや知見に関して記述された段落が同一文書中に複数存在することがあります。さらに、アンケート調査等で得られた文書情報は、文書ひとつの中にひとつの文や段落のみ記載されているケースがあります。こうした様々な文書内容のパターンに対応するために考えたのが表2.の情報取扱単位です。
「連想支援システム」に実装した情報の取扱い単位に関する説明は以上です。これらの情報取扱い単位について実際にテストした結果は、今後順次掲載して参ります。
なお、システムの仕組みや機能につきましては、ユーザーの皆様のご意見を積極的に取り入れ、検証し、有効性が確認されたものは実装してゆくことも考えておりますので、お気軽にご意見をお寄せください。