experience

重畳音声分離向けラダーネットワーク

重畳音声から目的の音声を抽出する音源分離技術は,議事自動生成などへの応用が期待される.従来,信号処理と深層学習の組み合わせで目的音声の分離が試みられてきたものの,再構成音の信号対ひずみ比(SDR)が10dB前後にとどまるため,その改善が課題であった.本研究は,以下の2点から構成される.1点目は,聴覚脳神経学の聴覚情景物体生成過程に関する知見を踏まえ,音源分離機能の数理モデルの導出である.2点目は,導出した数理モデルを組み込んだDeep Neural Network群による音源分離と再構成の実装である.具体的には,前者において,人間の聴覚は,各聴覚神経細胞固有の周波数時間的受容野(STRF)でフィルタリングした励起信号集団が聴覚情景物体を形成し,励起信号集団間の時間コヒーレント差異に基づいて複数聴覚情景物体を分離するという聴覚脳神経学の知見から,2つの数理モデルを導出している.STRFとその逆フィルターを表現する非線形スパースエンコーダデコーダモデルと,複数の聴覚情景物体の分離を表現する時間コヒーレントモデルである.後者においては,導出した数理モデルを,時間的内部情報を表現する複数のLadder Networkに組み込むことで,音源分離と再構成の高度化を図っている.