Ladder Network for Overlapped Speech Separation

重畳音声から目的の音声を抽出する音源分離技術は,議事自動生成などへの応用が期待される.従来,信号処理と深層学習の組み合わせで目的音声の分離が試みられてきたものの,再構成音の信号対ひずみ比(SDR)が10dB前後にとどまるため,その改善が課題であった.本研究は,以下の2点から構成される.1点目は,聴覚脳神経学の聴覚情景物体生成過程に関する知見を踏まえ,音源分離機能の数理モデルの導出である.2点目は,導出した数理モデルを組み込んだDeep Neural Network群による音源分離と再構成の実装である.具体的には,前者において,人間の聴覚は,各聴覚神経細胞固有の周波数時間的受容野(STRF)でフィルタリングした励起信号集団が聴覚情景物体を形成し,励起信号集団間の時間コヒーレント差異に基づいて複数聴覚情景物体を分離するという聴覚脳神経学の知見から,2つの数理モデルを導出している.STRFとその逆フィルターを表現する非線形スパースエンコーダデコーダモデルと,複数の聴覚情景物体の分離を表現する時間コヒーレントモデルである.後者においては,導出した数理モデルを,時間的内部情報を表現する複数のLadder Networkに組み込むことで,音源分離と再構成の高度化を図っている.

Source separation from multiple overlapped speech signals is an essential problem to solve in automatic conference transcript creation and support for hearing-impaired people. Despite the recent development of the signal processing and deep learning techniques, the minimum required Signal to Distortion Ratio (SDR) for the state-of-the-art techniques to reconstruct overlapped speech is still being limited around 10dB. In this research, we build a brand new 3-step methodology; 1) first interpreting auditory neuroscience results; 2) deriving speech separation computational models for these results; 3) creating fitting deep learning networks to recreate the natural model. Practically, we interpret the natural separation of multiple external sources as two processes: speech filtering process using Spectral-Temporal Receptive Field (STRF) and auditory scenery object extraction process using difference in temporal coherence. Then we select two computational models, non-linear sparse encoding/decoding model and time coherence model for the two processes, respectively. Finally, to implement the models, we construct a set of ladder networks capable of representing temporal information.  Currently, we are evaluating the capability of the proposed speech separation method by simulations with SDR measurement.