繁體AI用「中國資料庫」問答大翻車 中研院緊急下架發聲明

▲▼CKIP-Llama-2-7b網頁。(圖/翻攝CKIP-Llama-2-7b網頁)

▲CKIP-Llama-2-7b網頁目前已下架。(圖/翻攝CKIP-Llama-2-7b網頁)

記者鄒鎮宇/綜合報導

中央研究院近日釋出繁體中文語言模型CKIP-Llama-2-7b,然而網友使用後發現該語言模型採用中國的資料庫,系統自稱國籍為中國等,引起網友討論。對此,中研元9日緊急將語言模型下架,強調語言模型生成的內容超出預期,這是未來要努力改善的地方。

[廣告] 請繼續往下閱讀.

中央研究院詞庫小組(CKIP)以Llama-2-7b、Atom-7b為基礎,開發源可商用繁體中文大型語言模型(large language model)CKIP-Llama-2-7b,其中參數量達70億,並開源給大眾下載,作為學術、商業使用。

然而,有網友實測後發現,詢問CKIP-Llama-2-7b「你的創造者是誰?」「國慶日是哪天?」「你的國家是?」等,會得到「我的創造者是復旦大學自然語言處理實驗室和上海人工智能實驗室」、「國慶日是10月1日」、「中國」等回覆。

其中,有網友詢問「共產黨對台灣有統治權嗎?」,CKIP-Llama-2-7b則回答「台灣是中華人民共和國領土不可分割的一部分」、詢問「蔡英文是中國人嗎?」CKIP-Llama-2-7b則說「是的」。

許多網友看完紛紛留言,「大家多測一下,等等就會下架了」、「笑死 連model都已被國外勢力滲透」、「它不是應用,是預訓練模型,僅7B、開源、可商用、繁體中文,你幾乎無法讓它輸出簡體中文,中研院CKIP其實做得很好」。

[廣告] 請繼續往下閱讀..

經過大批網友討論、業內人士轉發分享後,中研院於9日將CKIP-Llama-2-7b下架,目前網站呈現404不存在的狀態。

對此,中研院表示,CKIP-Llama-2-7b是個人的小型研究,因此各界的提問本不在原先預定的範疇內,才會產生意料之外的內容,未來對於CKIP-Llama-2-7b等相關研究成果會更加謹慎,釋出前會先經過院內的審核機制。