七嘴八舌分不清誰講話？Google靠AI分辨誰開口

2018年04月15日 15:30

▲Google 訓練 AI 依據畫面和聲音判斷說話的人。（圖／翻攝 Google）

記者黃肇祥／綜合報導

人類可以在吵雜的人群中，依據聲音傳來的方向辨別說話的人，但電腦可就沒有這麼厲害了，不過 Google 今天公開一項技術，讓 AI 在混雜的影片中，分辨現在開口說話的對象，並且將每一個人的聲音拆開成為獨立音檔，這項技術除了有望改善 YouTube 的字幕功能外，也能提升多人視訊對話的品質。

[廣告] 請繼續往下閱讀.

Google 藉由一段表演秀演片展示研究成果，AI 會將聲音元素與視覺畫面結合起來進行判斷，簡單來說，當影片中左邊的人在進行對話時，他的嘴巴應該要產生對應的開闔動作，AI 藉由捕捉肢體細節來判斷現在說話的人物是誰，結著再透過隔離單一聲音訊號並加強、其他聲音降低，完成獨立單一音源的工作。

除了展示隔絕聲音的技術外，Google 實際示範 AI 與 YouTube 目前的自動字幕的互動狀況，從上面的影片中我們可以發現，第一段沒有運用 AI 將聲音區隔的字幕是無法閱讀理解意思的，兩個人的話都被同時收錄在字幕之中組成意義不明的句子，若能將音源拆開來進行字幕分辨，這項技術未來有機會幫 YouTube 添加雙軌道的字幕顯示。

[廣告] 請繼續往下閱讀..

Google 特別提到，他們認為這項功能在視訊會議上能有所貢獻，期望技術能廣泛運用在 Google 各項產品之中。若依據 Google 的論述，Hangouts、Duo 是有可能使用這項技術的產品名單，在七嘴八舌的視訊會議中，藉由 AI 強化說話者的音量並隔絕雜音，會帶來更好的服務體驗。