TOBYO dimensionsの新バージョン

クリックで拡大。Analysisの「DATA」出力。

TOBYOプロジェクトのプロフェッショナル向け患者体験可視化システム「TOBYO dimensions」が、新しく再デビューします。

TOBYO dimensions」は、患者体験トラッキング・ツール「ディスティラー」と拡張検索エンジン「X-サーチ」からなる患者体験可視化システムとして、2011年からサービスを開始してきました。このプロジェクト自体が、まったくの未踏領域だったこともあり、これまで試行錯誤の連続でした。

振り返ると、これまでのdimensionsは、当初から検索エンジン技術に基礎を置いたシステムであったわけですが、昨年から、自然言語処理技術を新たにシステムのコアに位置づけようと、様々な試行を繰り返してきました。その途上で、袋小路に迷いこむような経験もしたわけですが、そのあたりは、このブログの昨年エントリを読んでもらえば、なんとなくご想像していただけることでしょう。

ちょうど一年前には「患者体験を典型的な文に収斂する」という目標を立てて、研究開発を進めていました。しかし、ウェブ上に公開された患者ドキュメントの性質をあらためて考えてみると、それらに表出された患者体験と感情は多様であり、何らかの「結論」へ収斂するようなものではないということに、改めて気づかされました。

ウェブ上の膨大な患者ドキュメントは、患者それぞれが多様であるように、非常に多様で分散しており、何か一つの中心や方向へまとめ上げるようなことは、本来不可能です。逆に、「患者の思いは、こうだ」みたいな結論付けや言説の出し方は、患者体験の多様性を、無理にある一定の方向へ捻じ曲げかねない危険なやり方であると、最終的には考えるに至りました。

このあたり、たまたま読んだミハイル・バフチンのポリフォニー論などに強い示唆を得ました。たしかに、ウェブ上に公開された患者の言葉は、ポリフォニー(多声的)として理解するほかなく、それらは独白と対話の弁証法的な運動を通じて、中心も方向も持たず、多様に多彩に展開されていると思います。そうであれば、そのポリフォニー的言説をありのまま届けるのが、私達の役割ではないかと考えたわけです。

近日公開する「TOBYO dimensions」は、「Analysis」という新規コンテンツを加え、さらに「ディスティラー」にも改善と機能強化をはかりました。「Analysis」は自然言語処理技術によって生まれたコンテンツです。ここしばらくこのブログでは「テキストマイニング」について多く触れてきました。テキストマイニングも含め、広く自然言語処理と機械学習の技術によって、患者の言葉をより精緻に抽出し紹介することをめざしています。

Analysis」では、患者テキストを「症状、検査、治療、薬剤、医師、医療機関、情報探索行動、予後」のカテゴリーに分類・抽出し、まず第一に、それぞれのカテゴリーのキーワードを「文」単位で可視化することをめざしました。そしてそれらキーワードを含む文を基礎データセットとして、計量化し統計分析処理を加えて出力します。膨大な量の患者ドキュメントから、個別キーワドごとに文を出力していては時間がかかって大変ですが、いろいろ試行錯誤する中で、それぞれのジャンルのキーワードが書かれた膨大な量の文を、一括して出力・加工できるようになりました。

従来のテキストマイニングでは、形態素や文節の関係に着目していたわけですが、これらを数量化するだけでは患者ドキュメントに表現された微妙なニュアンスや情感をとらえることはできません。「生の声」が持つヴィヴィッドな表情に触れるためには、その形態素や文節が表出された「文」を絶えず参照する必要があります。

言葉の数量化は全体を理解するための重要な手法ですが、同時に、ポリフォニーとして存在する具体的な「文」に立ち還ることが必要です。つまり、全体の抽象化と個別の事例観察という両端を往復することによって、はじめて患者体験の多様な全体像が見えてくるものと考えています。

基礎データセットは、キーワード前後それぞれ25語を切り出したKWIC形式で出力します。(上図)。KWICは「文脈付き索引」とも言われていますが、キーワードと関連トピックを概観するのに便利です。上図ではキーワード「タキソール」のトピック「副作用」を一覧することができます。また、Analysisの「DATA」では、キイワードの右側の文に元ブログ・ページのリンクを貼っています。ユーザーはキーワードのトピックを、ざっと一覧しながら、気になる文については直接その元ブログ・ページへ跳び、その文が書かれた文脈を確認することができます。「DATA」ではキーワードごとに数万行~数十万行の文が並ぶので、それらをアウトライン化してテーマごとに文を折りたたむようにしました。もちろんこれら「文」を統計処理し、グラフで可視化するコンテンツも提供します。

また、それぞれの文を機械学習によって「ポジティブ、ネガティブ、ニュートラル」に自動分類・集計する機能も開発中で、年内には実装します。これによってたとえば、

「薬剤Aについて、ポジティブ文が40%、ネガティブ文が20%、ニュートラルが40%。ポジティブ文の中で一番多く出現した言葉は「・・・・」で、ネガティブ文では・・・」

というような分析が可能となります。

新しくなった「TOBYO dimensions」にご期待ください。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>