声だけでうつ病がどこまで診断できるかを検証、診断精度の向上を確認

～音声感情認識技術に機械学習モデルを応用～～シンプルで効率的な信頼性の高いうつ病診断方法確立へ道を開く可能性～

調査・報告

2016年10月3日 12:00

一般社団法人こころの未来・インスティテュート

【ポイント】

音声指標と属性データ

〇音声から感情を認識する技術(音声感情認識技術)を用いて、性別や年齢等の属性データのほかに、声から収集した音声データだけでうつ病の有無をどれだけ正確に診断できるかを検証
〇音声データを取り入れた場合、高精度のうつ病診断が可能となることを確認
〇音声データ(入口情報)からうつ病の有無(出口情報)を判定するための公式を、最先端の自動計算(＝機械学習)で求めた点がユニーク

一般社団法人こころの未来・インスティテュート(所在地：東京都渋谷区)の代表である宗未来は、慶應義塾大学医学部精神神経科学教室、独立行政法人経済産業研究所、統計数理研究所リスク解析戦略研究センター、スマートメディカル株式会社と共同で、被験者の性別や年齢などの基本的な属性データのほかに、声による音声データだけでうつ病状態の有無をどれだけ正確に診断できるかを検証し、音声データを使うことで高い精度でうつ病診断が可能であることを確認しました。

今後、さらに技術の改善が必要ではありますが、本研究成果は、シンプルで効率的な信頼性の高いうつ病診断方法の確立へ道を開く可能性を示すものです。声による診断方法が実現すれば、診断コストの削減や、患者への迅速な対応やより的確な治療が可能となり、臨床的および社会的な恩恵がもたらされることが期待できます。

【研究の背景】
うつ病は高額な社会的費用を伴う重要な疾患ですが、医師でなければ許されないその診断には時間的および金銭的なコストがかかることが国際的にも問題視されてきています。また、精神症状評価は伝統的に自覚及び他覚的評価尺度が中心で、被験者や評価者の主観に影響を受けて客観性を欠くことも指摘されています。

一方で、既存の客観的評価法は脳画像測定機器のように大がかりで高価な装置を使用せざるをえず、簡易なものは著しく信頼性が低いとされていました。仮に、シンプルかつ効率的で信頼性の高いうつ病の診断方法が実現すれば診断コストの大幅削減のみならず、うつ病の的確な診断と早期介入が実現することが期待できます。

さまざまなそのような試みの中で特に、生命に直結する感情情報を伝える重大なインターフェースである声は、精神医療の研究領域でもうつ病診断において注目されています。人の一生は産声に始まり、乳幼児期には泣き声で空腹や体調異常といった生命に関わる重大情報を周囲に伝えます。成人においても声から他人の気持ちを推しはかります。

しかし、声によるうつ病診断の先行研究は英語のみで日本語版は報告されておらず、また国際的にも純粋な音声(周波数)データだけからの診断精度は低いとされていました。そこで、こころの未来・インスティテュートの代表で精神科医の宗未来は、声に着目し、日本語による音声データだけによるうつ病の診断精度について研究することにしました。

【研究の概要】
近年、音声から感情を同定する技術(音声感情認識技術＊)が開発され、すでに商業化されています。本研究ではこの技術を用いました。被験者の性別や年齢等の属性データのほか、声から収集した音声データだけでうつ病状態の有無をどれだけ正確に診断できるかを検証しました。加えて、過去の音声情報による、将来のうつ病状態出現の有無の予測能についても検証しました。

実際には、ネットによるオンライン調査で、約2,000名の被験者に2カ月おきの3時点(時点1、時点2、時点3)において音声を吹き込んでもらい音声データを取得しました。同時に、うつ病のスクリーニングに使われる質問票(PHQ-9＊)に答えてもらい、うつ病状態の有無に関するデータを取得しました。

複雑な音声データと属性(入口情報)からうつ病の有無(出口情報)を判定するためには、どういう音声のパターンであればうつ病の可能性が高いかを診断するための入口と出口を結びつける、いわゆる数学的な公式作り(＝診断アルゴリズムの構築)がまず必要になります(STEP1)。そして出来上がった公式が本当に正しいかどうかの答え合わせも不可欠です(STEP2)。

本研究のユニークな点は、STEP1において、「こんな音声データのパターンならうつ病の可能性が高いはず」といった仮説を人の頭で推測して当てはまる公式を作るような既存のデータ解析手法ではなく、音声データと属性(入口情報)とうつ病状態の有無(出口情報)を最適に結びつける複雑な公式を最新の技術によって自動計算(＝アンサンブル型機械学習＊)で求めたことです。

診断精度の高さは、ROC(AUC)＊と呼ばれる指標で判断しました。

本研究では、こころの未来・インスティテュートおよび慶應義塾大学医学部精神神経科学教室の宗未来が統括、独立行政法人経済産業研究所の関沢洋一が研究支援、統計数理研究所リスク解析戦略研究センターの竹林由武が解析を担当し、スマートメディカル株式会社が音声感情分析機器を提供しました。

【研究の結果と今後の課題】
時点1と時点2から得られた標本の7割を加工して得られた公式(診断アルゴリズム)を活用して、残りの3割の標本で検証した場合、音声データを含まない属性だけによる診断精度が中程度だったのに対して、音声データを取り入れた場合では、高精度のうつ病診断が可能となることが確認されました(下図)。

https://www.atpress.ne.jp/releases/112952/img_112952_1.jpg
(AUC基準…0.9～1.0 高精度／0.7～0.9 中精度／0.5～0.7 低精度)

しかし、この診断アルゴリズムを用いて、時点3の音声からうつ病状態の診断を行ったところ、今度は十分な精度は得られませんでした。さらに、時点1と時点2といった過去の音声から、未来のうつ病状態の有無の予測も試みましたがこれも期待された結果は得られませんでした。

以上のことから、音声感情認識技術には、うつ病状態の高精度なスクリーニングにおける高い潜在性が日本語においても示されました。しかし、一定の時間経過後の対象者におけるうつ病状態の診断、および過去の声から未来のうつ病状態予測については、さらに技術向上が必要であると考えられます。

なお、本研究の詳細については、独立行政法人経済産業研究所のホームページをご覧ください。
URL： http://www.rieti.go.jp/jp/publications/nts/16j054.html

【用語の解説】
＊音声感情認識技術とは、人の声の周波数などから、話者の感情を識別する技術。企業のコールセンターなどですでに導入事例がある。

＊ PHQとは、Patient Health Questionnaireで、短時間で精神疾患を評価するための自己記入質問票。うつ病性障害に関わる9つの質問項目を抽出して作成された質問票がPHQ-9。本研究では、先行研究からPHQ-9の得点で10点以上をうつ病状態と規定。

＊機械学習とは、見えているデータから反復的に学習し、そこに潜むパターンを見つけ出し、そのパターンを新たなデータにあてはめることで、見えていない将来を予測する技術。人工知能の研究課題の一つ。人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のこと。

＊ ROC(AUC)とは、疫学における診断精度の評価法の一つ。特定の状態の有無を調べるスクリーニングテストをして、その結果からROC曲線(Receiver Operating Characteristic curve)を作図。ROC曲線下面積のAUC(Area Under the Curve)が、スクリーニングテストの精度を表している。AUCの数値が高いほど診断精度は高く、0.9～1.0で高精度、0.7～0.9で中精度、0.5～0.7で低精度とされている。

＊訓練データとは、モデルを最適化するのに利用するデータのこと。

【こころの未来・インスティテュートとは】
当法人は、精神医療の発展に寄与することを目的とし、精神医学領域における医科学的エビデンスの構築や再評価、精神医療領域における書籍及び、翻訳書の発行、職場のメンタルヘルスに対するコンサルタント業、セミナーの企画等の事業を行っています。

所在地：東京都渋谷区恵比寿1丁目7番4-802号
設立　：2015年10月
代表　：宗未来

【宗未来(そうみらい)略歴】
旭川医科大学医学部医学科卒。防衛医科大学校精神科学講座助教、ロンドン大学キングスカレッジ精神医学研究所心理医学部客員研究員を経て、現在、慶応義塾大学医学部精神神経科学教室助教。一般社団法人こころの未来・インスティテュート代表。医学博士。英国理学修士(疫学)および経営管理学修士(MBA)。精神保健指定医。日本精神神経学会専門医＆指導医。日本医師会認定産業医。日本うつ病学会(フェロー)。国際対人関係療法協会認定スーパーバイザー。英国家族療法NHS認定治療者、スーパーバイザー＆トレーナー(日本人唯一の資格保持者)。留学中にはIAPT(英国認知行動療法家育成コース)に日本人初としての特別参加。