患者生成コンテンツ解析の新展開

「ハーセプチンの開始」自己組織化マップ

連日、素晴らしい秋晴れの日が続く。ブログを怠けているうちに、そして、そろそろあの酷暑の記憶を忘れ始めたころに、いつのまにか季節の歯車は大きく回転したようだ。毎日、老母を車椅子で散歩に連れ出し、移ろいゆく石神井公園の景観を一緒に眺める日々を送っている。少し前のエントリでも触れたが、精神的、身体的に老化著しい母を、今月から自宅介護することになった。ベンチャーと介護の二足わらじだが、さて、うまくいくものか?

ところで先月末だったか、ある大学から「患者の語り」について問い合わせがあった。TOBYO収録の患者生成ドキュメントを研究したいということだが、「患者の語り」という言葉にひっかかり苦笑した。ご存知のように当方では「患者の語り」という言葉を使わない。比喩として「語り」と言うことはあるかもしれないが、TOBYOプロジェクトの対象はあくまでも患者の「書き言葉(エクリチュール)」であり「語り」ではない。そればかりか、本来「書き言葉」と「語り」はかなり異なるものだ。だから両者の差異を、ほんとうはあいまいにしてはいけないのだと思う。

簡単にいえば、「語り」はパフォーマンスの性格が強く、行為遂行的であり、その首尾は「(パフォーマンスとして)成功したかどうか」あるいは「適切か、不適切か」で評価される。一方「書き言葉」は、どちらかというと事実確認的(コンスタティブ)性格が強く、その首尾は、記述された事実の真偽によって評価される。(参考:J.L.オースティン「言語と行為」)。

あまり二分論は好かないのだが、あえて単純にしてしまえば以上のようなことになる。では患者の「語り」と「書き言葉」だが、どうも「書き言葉」まで含めて「患者の語り」と言っている向きが多いようだ。これは「患者の書き言葉」の作者・書き手の立場からすると、いささか奇異にみえるはずだ。たとえば闘病ブログの作者に「あなたの語りは・・・」と言ってもまるでピンと来ないだろう。ここは「あなたのブログは」とか「あなたのエントリは」と言うべきだ。何もかもを「語り」ということが無理であり不自然なのだ。

また、データとしてみた場合、「語り」と「書き言葉」はかなり違った構造を持っている。前者のほうがよりスパースでシンタックスも不安定だ。これは「語り」が、多分に発せられる場や状況へ強く依存しているからだ。それゆえ、「語り」が発せられた場や状況を離れ、あとで書き起こしてみると正確な意味を再現できないこともある。それに対し「書き言葉」は、書き手が文章を生成する過程でシンタックスを意識せざるを得ないから、「語り」よりはまだデータとして解読しやすい。つまり構文解析が容易である。

だが、twitterやFacebookなどに生成される短文は、「書き言葉」よりも「語り」に近い。ブログでも若い書き手は「語り」のような文章を生成することが多く、特にケータイやスマホで書かれたものは「語り」に近いと感じられる。また、ブログやSNS特有の言い回し、スラング、絵文字、顔文字など、従来の「語り」にも「書き言葉」にも属さない表現が増えてきている。まさに「ネット的な書き言葉」というものが登場している。

私たちは、これら錯綜したネット上の膨大な量の患者生成コンテンツを、読み解き、計量化し、可視化する試みに取り組んでいる。TOBYO収録4万2千人の患者生成コンテンツ600万ページを、どのように要約すればわかりやすく提供できるのか。このブログでもその試行錯誤と成果の一端を報告してきているが、いろいろな手法にチャレンジしてみて、ようやく「終着点」というものが見えてきたような気がする。

ドキュメントを形態素解析し、特徴的な単語を抽出した上で計量化し、語と語の関係を多変量解析で上図のようにマッピングする、あるいはワードクラウドで可視化するだけなら、ことは簡単である。だが、このような手法で出力された散布図は、もちろん有益なのだけれど、何かが抜けているような気がしていた。たしかにそれらは患者エクリチュールの「語の統計」ではあるが、他方、語群とその配列によって生成される「意味」が希釈されてしまっているように感じられたのである。

この間、私たちのテキストマイニングの技術的精度は大きく向上してきたのだが、この「意味」の問題を乗り越えるためには、別のアプローチが必要になった。それは、端的に言ってしまうと「文を直視すること」である。単語に着目するだけでは不十分であり、「文」という単位で「意味を直視する」ような出力が必要になると考えた。「文単位で意味を直視する」ということは、文の構文解析をすることである。そのような観点から患者生成コンテンツを「文」単位で分解してみると、ある種の規則性が存在することが徐々にわかってきた。たとえばキイワードを薬剤名とすると、その前後に位置する付属語と自立語の並び、順序、品詞構成などが、ある限定された範囲内の規則性に基づいていることが察知される。

これは前言したように、「書き言葉」を生成する場合、「語り」よりもシンタックスに強く拘束されるからだ。換言すれば、「患者は、ある一定の規則に基づいて、自分の体験や感情を書き記している」という至極当然のはなしになる。あまりに当然過ぎて、あたりまえ過ぎて見落としていたわけだ。そして、患者ドキュメントに特徴的な「規則性」を定義できれば、「文」を「意味」によって分類抽出し計量化することが可能となる。このように単語だけでなく、文という単位で分析する、さらに語同士が結合した「複合語」にも着目し、患者ドキュメントを「単語、複合語、文」の3つのレイヤーで解析するという手法を思いついた。

年初からテキストマイニングを手法とする患者生成コンテンツ分析に取り組んできたが、テキストマイニング自体は、まだまだ発展途上の手法であると思う。その上にプラスアルファのチャレンジがなければ、患者生成コンテンツを充分に解析することにはならないだろう。そのために「多段抽出法、構文解析、品詞レイヤー解析」など、この間、私たちは従来になかった手法を開発しつつあることを報告しておきたい。

三宅  啓  INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>