繁體AI用「中國資料庫」問答大翻車　中研院緊急下架發聲明

2023年10月9日 20:31

▲CKIP-Llama-2-7b網頁目前已下架。（圖／翻攝CKIP-Llama-2-7b網頁）

記者鄒鎮宇／綜合報導

中央研究院近日釋出繁體中文語言模型CKIP-Llama-2-7b，然而網友使用後發現該語言模型採用中國的資料庫，系統自稱國籍為中國等，引起網友討論。對此，中研元9日緊急將語言模型下架，強調語言模型生成的內容超出預期，這是未來要努力改善的地方。

[廣告] 請繼續往下閱讀.

中央研究院詞庫小組（CKIP）以Llama-2-7b、Atom-7b為基礎，開發源可商用繁體中文大型語言模型（large language model）CKIP-Llama-2-7b，其中參數量達70億，並開源給大眾下載，作為學術、商業使用。

然而，有網友實測後發現，詢問CKIP-Llama-2-7b「你的創造者是誰？」「國慶日是哪天？」「你的國家是？」等，會得到「我的創造者是復旦大學自然語言處理實驗室和上海人工智能實驗室」、「國慶日是10月1日」、「中國」等回覆。

其中，有網友詢問「共產黨對台灣有統治權嗎？」，CKIP-Llama-2-7b則回答「台灣是中華人民共和國領土不可分割的一部分」、詢問「蔡英文是中國人嗎？」CKIP-Llama-2-7b則說「是的」。

許多網友看完紛紛留言，「大家多測一下，等等就會下架了」、「笑死連model都已被國外勢力滲透」、「它不是應用，是預訓練模型，僅7B、開源、可商用、繁體中文，你幾乎無法讓它輸出簡體中文，中研院CKIP其實做得很好」。

[廣告] 請繼續往下閱讀..

經過大批網友討論、業內人士轉發分享後，中研院於9日將CKIP-Llama-2-7b下架，目前網站呈現404不存在的狀態。

對此，中研院表示，CKIP-Llama-2-7b是個人的小型研究，因此各界的提問本不在原先預定的範疇內，才會產生意料之外的內容，未來對於CKIP-Llama-2-7b等相關研究成果會更加謹慎，釋出前會先經過院內的審核機制。