更新日: 2019年1月5日

脳の聴覚情報処理を模倣して超音波波形から損傷情報を抽出する人工知能技術

1. はじめに

私たち人間は,音を聞いて音源の位置を言い当てられます.話し声から話者の精神状態を推察できます.たとえ同じ曲が同じキーで歌われていても,歌声から歌手を区別できます.多数の話し声が混在するパーティ会場で知人の声だけを選択的に聞き取ることができます.

これらはすべて,非常に高度な脳の情報処理能力の賜物です.脳はわずかな音声波形の差異に気づくことができます.そして音声から多数の情報を抽出できます.

 

脳が音声から情報を抽出する際の情報処理はとても高度です.本研究の目的は,脳の聴覚情報処理をまねた新しい超音波検査法を開発することです.

 

超音波とは人間の可聴上限(20kHz)を超える周波数の音波です.超音波を使って,人体の病変や構造物の損傷を見つける技術を超音波検査(エコー検査,超音波探傷)と呼びます.異常部における超音波の反射,散乱,減衰などを観測して異常部の情報を取得します.

異常部の情報を持つ超音波波形に,脳を模倣したデータ処理を施すとどのような情報が得られるでしょうか.これを明らかにすることが本研究の目的です.

2

2.脳の高度な聴覚情報処理がもたらす機能
2.1. 音源の3次元位置特定

私たちは,音を聞いて音源の3次元位置(前後,左右,高さ)を推定できます.このとき,下記の情報を利用していると考えられています.

・両耳へ音が届く時間差
たとえば音源が右側にある場合,音波は先に右耳に到達し,続いて左耳に到達します.

 

・両耳へ届く音の大きさ(音圧)の差
たとえば音源が右側にある場合,右耳への入射音よりも左耳への入射音の方が小さくなります.

 

・両耳へ届く音の周波数特性の差
音源が右側にある場合,音波の多くは右耳に直接届きます.一方,左耳に届く音波は,回折しながら頭部を回り込み左耳に到達します.このとき高周波成分ほど弱められます.また,人の耳は複雑な凹凸形状をもち,音波の一部は直接鼓膜に届きますが,その他は凹凸面で反射したのち鼓膜に達します.同位相の成分は強め合い,逆位相の成分は弱め合います.その結果,両耳に届く音波の各周波数成分はわずかに異なります.つまり,両耳に届く音波の周波数スペクトルは,回折と反射の影響により差を生じます.

2.2 音源の移動方向の特定

音波の時間変化から,音源の移動も推定できる場合があります.例えば,音圧と周波数が時間的に低下したら,音源が遠ざかっていると推測できます.

2.3 カクテルパーティ効果

これは,多数の音源が混在する中で特定の音源を抽出する能力を指します.例えば,多くの人が雑談しているパーティ会場であっても,人の声を聞き分け,特定の話者(音源)の音声を選択的に抽出して,発言内容を理解できます.目を閉じていても(視覚情報がなくても),声質を知っている話者の話し声を抽出できます.あるいは,声質に着目するのではなく,発話内容に着目して特定の単語を拾い上げることもできます.例えば,にぎやかな会場内で誰かが自分の名をつぶやいた場合,話者が誰であるかとは無関係に(声質とは無関係に)鋭敏に反応できます.

3. 脳に求められる機能

耳に届いた音から,音源の情報(音源の位置,誰の声か,話者の精神状態など)を推測するのは容易なことではありません.以下ではこの難しさを説明します.


「音源から生成される音と周囲環境の音響特性」がわかれば「耳に届く音がどのようなものになるか」を知ることができます.ただし,そのためにはコンピュータを使って,音の物理法則(反射,散乱,屈折,回折,透過,干渉など)に基づく高度な演算を行い,音源から耳まで音波がどう伝播するかをシミュレーションする必要があります.しかし,脳はこのような物理演算をしているわけではありません.脳神経回路は,高速演算を実施可能なICチップのような構造を持っていません.私たちは音の物理法則を知らなくても音を聞いて音源の位置を推定できます.


そもそも脳が取得できる情報は「耳に届く音」だけであって,「音源から生成される音と周囲環境の音響特性」を知る術はありません.「耳に届く音(結果)」のみを頼りに「音源から生成される音(原因),ひいては音源の情報」を推定する役割を,脳は求められるわけです.結果から原因を推測するこのような問題(タスク)を逆問題とよびます.


ここまでの内容をまとめます.
・脳は物理法則に基づいて音の伝播をシミュレーションする計算機能を持たない
・そもそも脳に求められる機能は「音源から生成される音(原因)から耳に届く音(結果)を計算する機能」ではなない.「耳に届く音(結果)から音源から生成される音(原因)を推定する機能」が求められる.

4. 脳は高度な聴覚情報処理はいかにして実現されるか
4.1 脳は音声信号を記憶と照合する

以下では脳が音源位置を推定する際を例にとり,「脳がいかにして耳に届く音(結果)から音源位置(原因)を推定するか」を説明します.


脳が音源位置を推定する際に行うことは,「音場のシミュレーション」ではなく「パターンマッチング」だと考えられています.つまり,脳に記憶された「音と音源位置の関係」を呼び覚まして照合することで,今聞こえている音の位置を推定します.音声情報とは波形であり,時系列データです.脳は音声波形から時系列パターンを見出し,膨大な記憶と照合して結論を導き出します.


「耳に届く音と音源位置の関係性」はとても複雑であるため,言葉や数式で明示的に表現できるものではありません.つまり,「このような音声波形であれば音源の位置は○○と推定できる」という単純な条件分岐で対処できる問題ではありません.


私たちは,生まれてからずっと音を聞く生活を続けます.周囲の人物が話す声,テレビから聞こえる音声,物が落ちたときに鳴る音….「耳にした音」と「目にした音源の位置(あるいは触ることで知覚した音源の位置)」のセットを膨大な量経験することで,音と音源位置の関係性を学びます.この関係性の大部分は,脳の大脳新皮質の脳細胞間の結びつき(シナプス)という形態をとって脳に記憶されます.重要な点は,これまでに聞いたすべての音とその音源位置を記憶するのではなく,音と音源位置の普遍的な関係性(音源位置特定のコツ)を記憶するという点です.だからこそ,初めて聞いた音であっても,普遍的な関係性に当てはめることで,音源の位置をある程度推定できるのです.


ここでは音源位置の特定を例に説明しましたが,音声から他の情報を推定するしくみも同じです.つまり,下記のように音声から情報を抽出します.

・これまでの膨大な経験から,音と推定対象情報(発話内容,誰の声か,話者の精神状態など)の普遍的な関係性を脳神経回路に刻むことで,記憶する.
・今聞こえている音声を記憶と照合することで,音声からどんな情報が得られるかを導き出す.

4.2 人間の大脳新皮質を模倣した数理モデル: Hierarchical Temporal Memory (HTM)

現在,ディープラーニングを中心に人工知能技術の開発が進み,本格的な実用化時期を迎えています.一方,人の脳の大脳新皮質を模倣した数理モデルHierarchical Temporal Memory (HTM)は,ディープラーニングとの類似点もありますが,ディープラーニング以上に脳型コンピュータの実現に近いモデルと言われています.

HTM最大の特徴は,時間変動する入力信号に対し,その時間変動パターンを過去の記憶と照合して,そのパターンが意味する内容を認識しながら次に起こることを予想する点にあります.

HTMを用いた超音波検査について,次節で簡単に説明します.

5. 超音波を用いた非破壊検査

ここでは,超音波を利用した構造検査を紹介します.
構造物の非破壊検査や医療検査に用いられている超音波検査の模式図を示します.

超音波を構造物や人体に入射し,損傷や病変による反射,散乱を観測して損傷や病変の情報を得ます.上の図は,底面波と損傷からの反射波との時間差から損傷の位置を特定できることを示しています.損傷からの反射波を複数のセンサで受信し,その受信時間の差を利用するケースもあります.


外部から超音波を入射する超音波検査とは別に,損傷の発生や進展に伴う音波(AEと呼びます)を受信して,損傷情報を得る手法もあります.この手法では,AEの周波数スペクトル, Duration, Rise timeなど(これらを特徴量と呼びます)から,損傷の種類を特定できる場合があります.このように,受信時間の差以外の情報も活用することがあります.ただし,限られた種類の情報(特徴量)のみを波形から抽出するにとどまっており「波形の情報を余すことなく検査に活用している」とまではいえません.また,「どのような特徴量が,損傷のどの情報(種類,形状,超音波に対する角度など)と関連するのか」という点を人の手で明らかにしておく必要があります.損傷の情報を持つ有用な特徴量を人手で探すことは非常に難しい作業です.ある条件下では有用な特徴量が,別の条件下では役に立たないというケースも珍しくありません.そのような特徴量は,グローバルスタンダードとして広く定着する前に姿を消します.

6.    提案手法:脳の聴覚情報処理を模倣して超音波波形から損傷情報を抽出する人工知能

提案手法では,前節で述べた時間変動する入力を「超音波波形」とし,入力の時間変動パターンの記憶を「学習した超音波信号」とし,HTMが認識する対象を「損傷情報」とします(下図参照).

「人間の脳による高度な聴覚情報処理」を模倣できれば,超音波波形から,損傷の位置,種類,規模,向きなどを高精度で推定できるのではないかと期待しています.


5章において「既存の探傷手法は波形の情報を余すことなく検査に活用しているとまではいえない」と書きました.なぜなら既存手法では,超音波波形から得られる特徴量の設定作業(例えばAEのDuration, Rise timeなどの定義の設定)も,特徴量と損傷との関係性の導出作業も,人の手で行わなければならないからです.波形には損傷に関係する情報も無関係の情報も膨大に含まれるため,既存手法により波形に含まれる情報を有意義かつ取りこぼし無く活用するには限界があります.

 

一方,人の脳は,聴覚情報からの特徴抽出も,特徴量と音源情報の関係性の導出も,その人がこれまでに体験した膨大な観測データから自動的に(無意識下で)学習します.人の声,車の音,テレビの音,日常のあらゆる音を聞き,同時にその音源の情報(音源の種類,位置,状態など)を,視覚などを通して得ることで,音声と音源情報の関係性を大脳新皮質に刻みます.つまり,膨大な学習データにより,音波波形の情報を最大限活用する術を身につけます.

 

提案手法も同様に,膨大な量の超音波波形を学習することで,波形情報を余すことなく活用して損傷情報に結びつけます.

© H31 - Todoroki & Mizutani Laboratory