TOBYOプロジェクトとdimensionsの軌跡

「アナリシス」の疾患データ・コーナー

今年も今日が最後となった。TOBYOプロジェクトの一年と、dimensionsをめぐるこれまでの軌跡を振り返ってみよう。

今年は、まず年初からdimensionsの新規コンテンツとなる「アナリシス」の開発に着手した。dimensionsは2010年から開発を開始し、翌2011年に、拡張検索エンジン「X-サーチ」と患者ブログ・トラッキング・ツール「ディスティラー」からなる患者体験リスニング・システムとしてデビューした。当時の位置づけは、ソーシャル・リスニング・システムということであり、これは当時マーケティング・リサーチ界隈で台頭しつつあった「ソーシャル・リスニング」という新しいコンセプトを当てはめたものであった。

これら開発の背景を整理すると、TOBYOプロジェクトの立ち上げにさかのぼるが、そもそもゼロ年代半ば頃から、ネット上に大量に公開され始めた患者体験ドキュメントをどのように見るかといういう問題に行き着く。私達はそれら患者体験ドキュメントを、とりあえずまず「闘病記」という言葉で呼んだわけだが、同時に、これら大量のドキュメント群を「闘病記」という狭い概念で捉えてしまうことに違和感を持っていた。

このブログの初期エントリを読み返すと、世間一般に流布するいわゆる「闘病記」という概念と、ネット上の患者体験ドキュメントの差異をいかに明確に付けていくか、という問題意識で試行錯誤していたことがよくわかる。これらドキュメント群を「闘病記」として読んでしまえば、もうそれ以上どこへも行き場がないわけであり、そこから医療にイノベーションをもたらすような、何か新しいものを開いてみせることはできないと思っていたからである。

ビジネスの観点からみても、「闘病記」ということで患者ドキュメントを定義してしまうと、そこから派生するビジネス領域はせいぜい出版・編集とかコミュニティというものであり、いまいち新規性に乏しいものに見えた。これでは、医療を変えるようなインパクトはないと思ったのだ。

そこで私達は「闘病記」(作品)としてではなく、患者自身によって生成された医療体験(データ)としてネット上に公開されたドキュメント群を捉え、それらデータを使って患者による医療評価を構築したいと考えた。この「作品からデータへ」という定義シフトが、その後の私達の方向を決めたのだと思っている。また、その当時、まだビッグデータという言葉はなかったが、今にして思えば、まさにネットから患者の体験と知識を取り出そうというビッグデータ・プロジェクトを模索していたわけである。

まずTOBYOでは、ネット上に公開された患者サイト、患者ブログにタイトル、URL、病名、作者属性、記載事項、ランク等からなるアノテーションを付与し、サイト単位で闘病体験を可視化しようと考えた。またバーティカル検索エンジンを搭載し、患者ドキュメント群全体を全文検索可能にした。これらは「患者生成データによる医療評価」のためのいわば前段階であり、これらを通じて、ネット上に公開された患者ドキュメント・データのデータベースを構築することができた。

そしてそのデータベースを活用して、どのように患者生成データを医療評価にまで持っていくかは、次のプロジェクトであるdimensionsに託された。まず、拡張検索エンジン「X-サーチ」と患者ドキュメント・トラッキング・ツール「ディスティラー」を搭載したdimensionsは、基本的に患者生成データを「見る」機能をメインとしたシステムであったと思う。だが出来上がってしまうと、今でこそ言えるが、「何かが足りない」という思いが常につきまとっていた、

患者生成データを「見る」だけでは不十分だったわけだが、その後、その不足分を補うためにあれこれ試行錯誤の苦闘が続いた。そして今年になって、次第に明らかになってきたのは、「集計」という考え方だった。単純といえば単純だが、データを集計するという基本的な機能がdimensionsには不足していたのである。だが「集計」はわかったが、次に、「どう集計するか」が問題になった。特に集計単位と集計方法をめぐって、延々、ああでもない、こうでもないと考えたが、結局、「文」単位の集計と、「文」の分類による新たなアノテーション付けと集計という方法に落ち着いた。手短に言うと、薬剤や医療機関の固有名詞を含む文に、ポジティブ、ネガティブの極性を付与し、分類・集計の上、分析するというやりかたである。

集計を実現するためにはテキストマイニングが必要だろうということで、テキストマイニングのいろいろなツールに習熟しようということになったが、ここにも問題はあった。テキストマイニング・ツール自体はかなり多機能なものが出てきているのだが、どうも、それらを単に使っただけでは、私達の目指す「患者生成データによる医療評価」を実現することはできないということがわかってきた。通常のツールや辞書を大幅に手直しし、カスタマイズすることがどうしても必要だったのだ。

世に言う「テキストマイニング」という言葉は、よくよく考えてみると、非常に中途半端で漠然とした言葉だ。そしてそのツールも、大概は中途半端で漠然とした作りになっている。だから、その言葉や多機能性に幻惑されてはならないのだ。

まず辞書だが、収録語彙を130万語に拡大し、なおかつ「症状、検査、治療、薬剤、医師、医療機関、情報行動、予後」8ジャンルのキーワード約7万語からなるカスタム辞書を作成した。これによって、各ジャンルの複数キーワードを含む文を、一括出力できるようになった。たとえば乳がんの患者ブログ500件から、「薬剤」ジャンルに属する薬剤名などすべてのキーワードを含む文を一括出力できる。

そして抽出した文について、機械学習でネガ・ポジ判定し、分類・集計した。ここでも単に「ネガ・ポジ」に分けるというよりも、本当はもう少し複雑な前工程がある。それは「そもそもその文に、作者の感情や評価が表現されているか」の判定である。たとえば薬剤についての添付文書や解説記事などの引用、医師の説明の引用などは、薬剤に対する患者の評価を含んだ文ではない。ネガもポジもないのだ。

このようなことは通常のテキストマイニング・ツールでは、あまり考慮されているとはいえない。この問題について調べてみると、テキストマイニング一般の問題ではなく、「ウェブからの評価抽出」という問題設定で、ゼロ年代はじめから様々に、多数のアカデミズムにおける研究や実験が行われてきたことにようやく気づいた。これらの研究論文では、テキストマイニングという言葉はほとんど使われず、「自然言語処理と機械学習」という言葉で語られることが普通だ。

つまり私達が取り組んできたTOBYOプロジェクトは、自然言語処理と機械学習を使って「ウェブから患者の評価や意見や感情」を取り出すことをめざすプロジェクトであると、新たに定義し直す必要があったのだ。

さて、今年は以上の模索を通じて、dimensionsの第三のコンテンツとなる「アナリシス」を完成させることができた。「疾患データ、薬剤データ、レポート」の3つのコーナーからなる「アナリシス」は、とりあえず現在、疾患データで100疾患のデータブックを収録している。次いで、薬剤データで100アイテムの薬剤データブックを上げることになる。来年はこの強化したdimensionsを通じて、ようやく患者生成データに基づく医療評価を広く社会に届けていくことができるようになる。ずいぶん時間はかかったが、TOBYOローンチ以来、私達が目指してきたことが、やっと実現するのだ。

三宅 啓  INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>