號稱匹敵GPT-4o　陸AI模型DeepSeek-V3訓練僅花558萬美元

2024年12月28日 13:46

▲深度求索（DeepSeek）。（圖／翻攝DeepSeek）

記者蔡紹堅／綜合報導

中國大陸AI公司深度求索（DeepSeek）26日發表了全新大型開源AI模型「DeepSeek-V3」。據其官方的數據，DeepSeek-V3在性能上已可匹敵世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet。

[廣告] 請繼續往下閱讀.

根據《第一財經》報導，DeepSeek-V3的發表在X上引起不小的討論，科技圈驚嘆的點在於，這一模型能力對標頭部模型，但訓練的預算卻非常低，「2048個GPU、2個月、近600萬美元」。相較之下，GPT-4o等模型的訓練成本約為1億美元，至少在萬個GPU量級的計算集群上訓練。

DeepSeek-V3是一個具有6710億總參數的MoE（混合專家）模型，每token激活參數為370億，在14.8兆token上進行了預訓練。

官方給出的數據顯示，DeepSeek-V3 多項測評成績超越了阿里通義的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他開源模型，並在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

▼深度求索給出的性能數據。（圖／翻攝DeepSeek）

DeepSeek表示，通過算法和工程上的創新，DeepSeek-V3 的生成吐字速度提高了三倍，從20 TPS提高至60 TPS，API服務價格也同步做了調整，目前為每百萬輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens 8元。但全新模型有45天的優惠價格體驗期，為每百萬輸入tokens 0.1元（緩存命中）/1元（緩存未命中），每百萬輸出tokens 2元。

[廣告] 請繼續往下閱讀..

此價格在目前頭部模型市場中有一定的競爭力。例如OpenAI的GPT 4o定價為輸入：5美元/百萬Token，輸出：15美元/百萬Token，加總成本是20美元。

前Open AI 聯合創始人、Tesla AI 團隊負責人Andrej Karpathy在X上發文表示，Llama 3 405B 使用了3080萬GPU小時，而DeepSeek-V3 看起來是一個更強大的模型，僅使用了280萬GPU 小時（計算量約為十分之一），如果該模型的優良表現能夠得到廣泛驗證，這一模型將是在資源受限的情況下，在研究和工程方面讓人印象深刻的一次展示。

[廣告] 請繼續往下閱讀...

▼DeepSeek-V3的性價比受到關注。（圖／翻攝DeepSeek）