登頂美國APP排行榜!陸DeepSeek大模型強在哪?

▲▼登頂美國APP排行榜!陸DeepSeek大模型強在哪?。(圖/翻攝App Store)

▲DeepSeek衝上美國APP Store排行榜第一名。(圖/翻攝App Store)

記者蔡紹堅/綜合報導

中國大陸AI新創公司DeepSeek近期接連發表兩款大模型,還衝上了美國APP Store免費APP下載排行榜的第一名,受到大量關注。陸媒《澎湃新聞》指出,DeepSeek-R1憑著「物美價廉」引起轟動,費用比OpenAI o1便宜九成,並有著不俗的性能表現。

報導提到,DeepSeek於20日正式發表推理大模型DeepSeek-R1,作為一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能能夠比肩OpenAI o1模型正式版,並採用MIT許可協議,支持免費商用、任意修改和衍生開發等。

據DeepSeek介紹,R1的預訓練費用只有557.6萬美元,在2048塊輝達H800 GPU(針對中國市場的低配版GPU)集群上運行55天完成,只要OpenAI GPT-4o模型訓練成本的不到十分之一。

▲▼深度求索(DeepSeek)AI模型。(圖/翻攝DeepSeek)

DeepSeek表示,R1在後訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。同時,DeepSeek不只將R1訓練技術全部公開,還蒸餾了6個小模型向社區開源,允許用戶借此訓練其他模型。

DeepSeek-R1憑其「物美價廉」的特性在開發者社群中受到關注,在API定價方面,DeepSeek R1服務對每百萬輸入token收取0.55美元,對每百萬輸出token收取2.19美元/百萬,而OpenAI最新版o1模型的相應收費分別為15美元/百萬和60美元/百萬。

小有名氣的研究者Shubham Saboo表示,作為一款100%開源的模型,R1比OpenAI o1便宜96.4%,同時提供類似的性能,建議已經訂閱ChatGPT的開發者「放棄沈沒成本」。

輝達高級研究科學家Jim Fan表示,DeepSeek-R1可能是「首個展示了RL(強化學習)飛輪可以發揮作用且能帶來持續增長的OSS(開源軟件)項目」,其中,「飛輪」用來形容AI系統中自我強化、正向循環的過程。

▲DeepSeek(深度求索)大模型。(圖/翻攝官網)

DeepSeek的論文顯示,不同於過去AI模型往往依賴於監督微調(SFT,指AI模型通過已標注的數據進行訓練),R1完全由強化學習驅動,證明直接強化學習是可行的。

Jim Fan指出,「我們正處於一個奇特的時間線上,一家非美國公司正在踐行OpenAI最初的使命,即實現真正開放的前沿研究並讓所有人受益。這種情況簡直無法理解。最有娛樂性的結果卻是可能性最大的結果。」

大陸360創辦人周鴻禕更表示,DeepSeek這家公司最近的表現簡直逆天,相信將來如果要對抗美國的AI技術霸權,中國大模型技術復仇者聯盟戰隊裡一定有DeepSeek的一份,「因為這家公司和它的創始人非常低調,他們技術能力和未來前景被市場嚴重低估了。」

分享給朋友:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

相關新聞

關鍵字:

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面