Google Assistant發展AI中文語音的五大痛點公開、抵台時間敬請期待

2018年05月14日 17:17

▲Google Assistant 中文研究員宋雲軒。(圖/記者洪聖壹攝)

記者洪聖壹/美國舊金山報導

關於 Google Assistant 支援繁體中文這方面,《ETtoday新聞雲》在多次媒體場合都曾發問過相同的問題:「Google Assistant什麼時候支援繁體中文」,這一次,Google Assistant 中文研究員宋雲軒向台灣媒體一口氣說明了,究竟對智慧語音學習來說,中文為什麼堪稱全世界最難懂的語言之一,而對老外來說,Google Assistant 發展繁體中文為什麼會這麼難、這麼慢。

這次訪談過程中,Google Assistant 中文研究員宋雲軒並未回應有關 Google Assistant 的開發團隊詳細狀況,包括最新開發進度、繁體中文開發進度,以及開發團隊人數等等。倒是針對 Google 如何完成「聲音辨識」以及如何回應人類需求,做了一點淺顯易懂的說明。

Google Assistant 中文研究員宋雲軒表示,人與人之間的交流,最簡單的方式就是用聲音來講話,或者用文字的形式來傳達。而 Google 發展人工智慧語音助理的想法,是希望讓語音助理「像人一樣對話」,其中最重要的任務就是要組織全世界的資訊,讓使用者都能夠簡單的完成任務,為了達成這個任務,第一個問題就是要處理聲音資訊。第二個問題當然是要讓助理們如何正確、成功達成用戶的需求。

聲音

目前 Google 針對語音、語言處理技術,包括語音辨識跟語音合成,其中在語音辨識方面,像是 2019 年 Google 推出 Voice Search,讓用戶啟用語音,就能夠成功辨識成文字,現在透過語音辨識可以直接在虛擬鍵盤上啟用來撰寫文字,可以藉此協助用戶撰寫文章、email、短訊息等等。另外,這幾年最知名的就是 Triggering,這項技術主要是用來區別指令的一個動作,好比說發展 Google Assistant 所使用的「OK,Google」、「Hey,Google」。

而針對語音合成這方面,碰到的問題是如何將文字轉換成聲音,而今年 I/O 針對 Google Assistant 額外推出 6 種聲音來豐富其表現,其實背後解決的問題相當多,其中一個就是如何在龐大的語音資料庫當中,尋找跟這些聲音相同的意思組合在一起,並讓消費者得到一致性的人工智慧語音體驗,近年來更熱門的趨勢就是深度學習,透過相關模組來合成聲音。

語言處理

在語言處理這方面,第一個就是語意分析,大致上的意義就是把一段文字轉成樹狀結構,從結構當中讓機器判斷什麼是主詞、什麼是動詞,現在的做法是把文字轉成一連串的數字,用數字來比對聲音的意思,從而提升機器學習的效率。

另外,為了讓機器「聽得懂人話」,針對句子當中重要的資訊,則必須要另外開發分析模組,像是透過 Dependcy Parsing 來分析整個句子包括動詞、受詞、時間、地點的意義,另外還有透過 Named entrity recognition 分析人名、地名等資訊等等。

自然語言處理

在分析完整個語音、語言之後,接下來一個重要的動作就是自然語言處理。舉例來說:「台北天氣如何?」在 Google Assistant 來說,它就會判斷出用戶要問的是「台北天氣」,然後再從 Google 資料庫當中,找到台北的天氣,然後根據這些資訊的解答,轉換成一個用戶聽得懂的自然語言句子,這在 Google Assistant 裡面,就成了一個重要的技術。

自動翻譯

接下來進入這次要探討的環節:「Machine Translation」。當 Google 已經辨識了聲音、了解這個聲音的內容、然後從 Google 資料庫轉成自然語言,接著碰到的問題就是翻譯成各種當地的語言,由於這是一個龐大的專案內容,因此 Google 後來發展了一個叫做「自然語言翻譯」的技術,這包括網頁、行動等不同平台的裝置支援。

如今,透過 Google 搜尋功能,可以進行即時的語音搜尋,透過Google Assistant 除了關鍵字之外,可以用自然語言跟 Google 交談,透過 Google Home 也可以與智慧裝置對話。甚至透過即時的翻譯功能,用戶在耳機當中聽到的英文,會自動翻譯成中文。

簡而言之,對於所謂的人工智慧語音功能,其背後要面對的技術挑戰相當多,不過 Google 目前已經完成的是可以正確的反饋人類需求,當使用者提供聲音進去時,會進行一個語音辨識,接著會進行語意分析,在了解是什麼需求的時候,再把這些使用者要的資訊,提供相對應的自然語言回應。

接下來 Google 面對的最大挑戰,其實是要把這些自然語言回應,以在地的方式,推送到全球每個地區,最新進度就是今年 Google I/O 宣布的提升到支援 30 種語言、推送到全球 80 個國家。

其中,針對繁體中文這方面,宋雲軒提到了下述幾個挑戰:

第一個是「斷詞」

相較於英文,不同字跟詞的意義是可以組合的,然而因為人類大腦在看一個字可以聯想出很多意義,因此即使是同一個字也會有不同的意思,不過在中文方面,就連「斷句」本身,也有不同的意思,好比說「我們在野生動物園玩」這句話,對於機器來說,可能是「我們 在 野生動物園 玩」、也可能是「我們 在野 生動 物 園 玩」,人腦在判斷字句的時候,很自然地知道哪句話是有意義的,但是對機器來說就是一個挑戰,另外還有逗號句號的語意分析的問題,因此 Google 必須要針對斷句的語意來分析、判別,藉此了解句子本身的意義。

第二個是「句子結構」

相較於英文,中文的句子結構其實比較沒那麼嚴謹,像是「蘋果一個多少錢」,「一個蘋果多少錢」,就英文來說都是"How much is one Apple",但是「他昨天很晚睡」、「他昨天睡很晚」,直翻英文都是一樣,但是中文的意義不同,人類會自動依照意思翻成不同的英文,對機器來說就是一個挑戰。

第三個是「認知」

在中文來說,一個字句可以產生很不同的變化,好比說問一個人單身的原因,這個人可能直接回答「原來喜歡一個人,現在還是喜歡一個人」。在這句子當中的「一個人」背後代表的意義都不同,但是對於機器判斷來說,這兩個「一個人」都是 One Person,而不會去聯想到單身,要判別上就有難度。

第四個是「聲調」(Tonal Languages)

不同的聲調,就要做出不同的處理,繁體中文有四個聲調,像是「老師我想問你」跟「老師我想吻你」,像是「我要水餃」跟「我要睡覺」,都是完全不一樣的意思,但差別僅在聲調。

第五個是「方言」(Accent 跟 Dialect)

台灣其實有不同的在地方言,像是台語、客家話、原住民語言,人們因為使用習慣,不同語言會作切換,好比說「五星級」、「有省錢(台語)」只是發音相同,但是意思卻是完全不同。

▲透過Google Assistant可以啟用搜尋並且透過 Google Pay 購物、訂餐,過程中如果發生語音、語意、聲調理解錯誤,那可能就會產生不必要的客訴問題。(圖/記者洪聖壹攝)

宋雲軒表示,為了讓機器更瞭解中文,透過深度學習跟機器學習是近期最經常使用的技術,傳統的做法是去做句子結構的分析,但這個做法不僅費工耗時、而且容易發生錯誤,現在透過深度學習的技術,把每個句子轉換成一列串的數字,如果有相同的意思,在 3D 的圖形就會出現接近的距離,藉此去了解、判斷一個字句的意思。

至於繁體中文的形式也是相同,Google 透過各種不同對話資料比對,來去了解是什麼意思,並且專為繁體中文寫一個機器學習的模組,比方說讓中文在句子結構的辨識上,使用中文字句跟英文字句配對,結果出現有明顯的進步,尤其對亞洲語言更有幫助。另外一個是透過深度學習去學習聲音的序號,對比以前把聲音轉換成特徵然後再去辨識的做法,發現有效提升 15~20%。

宋雲軒指出,Google 透過深度學習來解析句子、透過機器學習來判別一句話的意思,讓中文語音出現進展,當然最新的Duplex 技術這種實驗性的計畫,在英文得到驗證之後,未來也可以加入其他語言。

至於繁體中文解決之後,進入中國、香港會不會有問題,答案是肯定的,宋雲軒表示,誠如上述所解釋,機器在辨識語意、字句切換成自然語言的同時,這中間還要能夠辨識「方言」,有些方言可能夾雜的是當地口音,而這口音,不要說中國、香港、台灣會有所不同,就連台灣各地,都有不同的腔調,不過隨著使用數據的提升,其實機器學習可以因為這些大量的數據,辨識方言。

從這次的訪談過程,可以感受到 Google Assistant 似乎已經克服了世界上最難的語言之一「繁體中文」,相信在台灣開放中文語音包的日子已經越來越近,這也正代表著整體台灣物聯網發展將會呈現跳躍式的成長。

依照 Google I/O 2017 期間展示的應用(詳見:Google Assistant 人工智慧助理滿周歲,接下來你隨時都會看到它 )好比說透過聲控的形式在各種不同平台(手機、電視、汽車、手錶)開啟、關閉家電,預約個人行程,撥打、接聽電話,到了 Google I/O 2018,語音助理已經演化到更自然的人聲,而且還可以幫忙訂餐、購物,同時支援更多的裝置。

記者實際在 Google Assistant 展區觀看 IoT 產品的控制形式,也有了相當層度的提升,好比說對於農夫來說,現在透過 Google Assistant 可以控制光照強度,相關指令:像是「把燈光打開到 60%」。你在家裡看電視,也不用再找遙控器上的錄影選項,直接透過語音助理說一聲即可,甚至要看家裡的信箱裡面有沒有信,也可以用聲控的方式解決,詳見下方影片:

▲直擊Google I/O 2018 展示的最新 IoT 語音控制形式。(影片/記者洪聖壹攝)

這些都說明著全球各地的人類,將享受到全新的智慧語音生態系帶來的更多科技便利,某種意義來說,台灣在這時候發展物聯網,其實也不算晚,反而需要各界通力合作,迎向新科技帶來的市場變化。

MWC 2017 期間,Google硬體資深副總裁Rick Osterloh 受訪時指出,Google Assistant 是未來整個 Google 產品的核心應用。(詳見:Google Assistant 開放更多手機使用,並將登上電視與汽車)這一點至今毋庸置疑,現在關於繁體中文版的進度也終於有了眉目,不過依照 Google 台灣的回應,實際上 Google Assistant 中文語音在台上線時間仍被保密著,只能說「敬請期待」了。

▲Google Assistant研發副總裁Scott Huffman公開年底前支援的 30 個語系與上線地區當中,台灣被繪製成藍色的區域,正意味著繁體中文即將登台。(圖/取自Google I/O 2018)

分享給朋友:

讀者迴響