號稱匹敵GPT-4o　陸AI模型DeepSeek-V3訓練僅花558萬美元

▲▼深度求索（DeepSeek）AI模型。（圖／翻攝DeepSeek）

▲深度求索（DeepSeek）。（圖／翻攝DeepSeek）

記者蔡紹堅／綜合報導

中國大陸AI公司深度求索（DeepSeek）26日發表了全新大型開源AI模型「DeepSeek-V3」。據其官方的數據，DeepSeek-V3在性能上已可匹敵世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet。

根據《第一財經》報導，DeepSeek-V3的發表在X上引起不小的討論，科技圈驚嘆的點在於，這一模型能力對標頭部模型，但訓練的預算卻非常低，「2048個GPU、2個月、近600萬美元」。相較之下，GPT-4o等模型的訓練成本約為1億美元，至少在萬個GPU量級的計算集群上訓練。

DeepSeek-V3是一個具有6710億總參數的MoE（混合專家）模型，每token激活參數為370億，在14.8兆token上進行了預訓練。

官方給出的數據顯示，DeepSeek-V3 多項測評成績超越了阿里通義的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他開源模型，並在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

▼深度求索給出的性能數據。（圖／翻攝DeepSeek）

▲▼深度求索（DeepSeek）AI模型。（圖／翻攝DeepSeek）

DeepSeek表示，通過算法和工程上的創新，DeepSeek-V3 的生成吐字速度提高了三倍，從20 TPS提高至60 TPS，API服務價格也同步做了調整，目前為每百萬輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens 8元。但全新模型有45天的優惠價格體驗期，為每百萬輸入tokens 0.1元（緩存命中）/1元（緩存未命中），每百萬輸出tokens 2元。

此價格在目前頭部模型市場中有一定的競爭力。例如OpenAI的GPT 4o定價為輸入：5美元/百萬Token，輸出：15美元/百萬Token，加總成本是20美元。

前Open AI 聯合創始人、Tesla AI 團隊負責人Andrej Karpathy在X上發文表示，Llama 3 405B 使用了3080萬GPU小時，而DeepSeek-V3 看起來是一個更強大的模型，僅使用了280萬GPU 小時（計算量約為十分之一），如果該模型的優良表現能夠得到廣泛驗證，這一模型將是在資源受限的情況下，在研究和工程方面讓人印象深刻的一次展示。

▼DeepSeek-V3的性價比受到關注。（圖／翻攝DeepSeek）

▲▼深度求索（DeepSeek）AI模型。（圖／翻攝DeepSeek）

每日新聞精選　免費訂閱《ETtoday電子報》

ET快訊

強烈冷氣團「最凍時刻到」！

趙露思重病休養有端倪！曾公開吐露「非常不想做這行」：我不快樂

亞塞拜然航空墜機釀38死！普丁道歉了

分享給朋友：

追蹤我們：

熱門活動

‧ 樊振東、陳夢接連退出世界排名！世界乒聯6點回應了

‧ 每天只睡5小時！陸16歲少年「頭禿了」 阿公頭髮都比他多

‧ 陸發改委成立「低空經濟發展司」 盼拉動經濟成長

‧ 陸核准雅魯藏布江下游水壩工程 印度、孟加拉恐受影響

‧ 隔天辦婚禮「主管突不准假」 新娘曠職被開除！公司GG了

‧ 陸公司團建逼員工「吞火」 她怕丟工作只好硬撐

‧ 香港民主黨創黨主席李柱銘 「太平紳士」頭銜遭撤銷

‧ 廣西爆出「山羊灌食增重」 一切開「體內噴出草料」