研究期間2023年4月-2024年3月

研究概要
 本補助事業では、新しいコミュニケーション方式の確立を目指し、新しいコミュニケーションツールとして無声発話と手の動きに着目し、生体情報を用いた発話内容認識および手の動きによるコミュニケーション意図認識システム開発を目的としている。意図認識システムは、顔表面の生体情報から発話認識を無声で認識し、手の動きを手首に取り付けるウェアラブルデバイスにより認識することで実現する。2つの認識システムを統合することで、コミュニケーションエラーを効率的に対処した新しい直感的なコミュニケーション方式を実現する。本補助事業では、無声発話の認識精度向上、使い心地の向上に着目して、新たな無声発話認識技術の研究開発を遂行した。

▼ 詳細・評価についてはこちらをご覧ください

無声発話における単語認識の実現に関する研究

無声発話の実現に向けた静止時および体動時の単語認識システムの作成を行った。まず、無声発話時の顔周りの筋電位を取得するセンサシステム(図1)を構築し、センサシステムから取得したセンサデータをもとに事前に決定された任意の単語に関して、無声発話時に発された単語を分類する分類器を畳み込みニューラルネットワークを用いて構築した(図2)。構築したシステムを用いて、静止時において80%程度の分類精度を達成するデータ取得法及び学習法の確立を達成した。 また、本研究項目では、利用者の使い心地の向上も考慮して、センサ数削減にも着手しており、従来法よりも少ないセンサ数で同等の認識精度を達成することに成功している。

図1 顔面筋電位取得システム
図2 無声発話認識システム

無声発話における体動の影響の除去に関する研究

体動時(歩きながらなどの動作時)での利用を考え、体動除去に関する研究を行った。事前検証結果では、静止状態での無声発話認識システムを体動に利用した場合、認識精度が約40%-80%程度と安定的かつ実用的な精度の確保が行えていない。そこで、体動を除去する手法として下記の2つの手法の構築・検証を行った。

① 鎖骨の上に取り付けた電極から移動に基づくノイズ信号を取得し、減算する手法

図1のシステムに鎖骨上に取り付ける電極を1つ追加し、無声発話に関する顔表面EMG信号と同時に体動に基づく筋電位信号のノイズ成分を取得する.追加された筋電位信号は、無声発話の影響を含まず、体動の影響を表すものとして顔面筋電位信号から減算することで、ノイズ除去を試みた。検証結果として、体動ノイズを除去しない場合に比べて全体的に10%程度-15%程度、推定精度を向上させることに成功した。

② 変分的モード分解を用いて、筋電位情報から発話に関する情報のみを抽出する手法

変分的モード分解は、ある信号から特定の周波数帯の信号を抽出することに優れている。そこで、この手法を顔面筋電位信号に適用し、無声発話による筋電位信号のみを抽出することを試みた。検証結果としては、個人差が生じており、特に除去なしの場合に比べて、変化がない場合や、40%以上認識精度が向上したケースがあった。また、特に①の手法に比べて、体動が比較的早い場合に有効であることが示されている。

無声発話における一文字ごとの認識の実現に関する研究

実用上、特定の単語にのみ絞った認識システムでは、コミュニケーションのすべてを行うことが不可能である。そのため、ひらがなを一文字ずつ認識させるシステムの構築を行った。これにより、無声発話時の文字起こしができるようになると思われる。本研究項目では、母音と子音の認識に着目し、まず、「あ」「い」「う」「え」「お」の母音のみの認識検証および、「あ」「さ」「な」「ま」「ら」を用いた子音の認識検証を行った。母音検証結果より、60%-71.8%程度の認識精度を達成することに成功した。各母音の特徴量の差から認識精度に違いがでていることがわかっている。子音の検証結果より、平均で10%代と大きな課題が残っている。これは、子音の違いによって生じる発話時の口の形の違いが少ないためである。そのため、EMG信号の取得位置の変更や、追加のセンサの活用が必要となる結果が得られている。