記者蔡紹堅/綜合報導
中國大陸AI公司深度求索(DeepSeek)26日發表了全新大型開源AI模型「DeepSeek-V3」。據其官方的數據,DeepSeek-V3在性能上已可匹敵世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet。
[廣告] 請繼續往下閱讀.
根據《第一財經》報導,DeepSeek-V3的發表在X上引起不小的討論,科技圈驚嘆的點在於,這一模型能力對標頭部模型,但訓練的預算卻非常低,「2048個GPU、2個月、近600萬美元」。相較之下,GPT-4o等模型的訓練成本約為1億美元,至少在萬個GPU量級的計算集群上訓練。
DeepSeek-V3是一個具有6710億總參數的MoE(混合專家)模型,每token激活參數為370億,在14.8兆token上進行了預訓練。
官方給出的數據顯示,DeepSeek-V3 多項測評成績超越了阿里通義的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他開源模型,並在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
DeepSeek表示,通過算法和工程上的創新,DeepSeek-V3 的生成吐字速度提高了三倍,從20 TPS提高至60 TPS,API服務價格也同步做了調整,目前為每百萬輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens 8元。但全新模型有45天的優惠價格體驗期,為每百萬輸入tokens 0.1元(緩存命中)/1元(緩存未命中),每百萬輸出tokens 2元。
[廣告] 請繼續往下閱讀..
此價格在目前頭部模型市場中有一定的競爭力。例如OpenAI的GPT 4o定價為輸入:5美元/百萬Token,輸出:15美元/百萬Token,加總成本是20美元。
前Open AI 聯合創始人、Tesla AI 團隊負責人Andrej Karpathy在X上發文表示,Llama 3 405B 使用了3080萬GPU小時,而DeepSeek-V3 看起來是一個更強大的模型,僅使用了280萬GPU 小時(計算量約為十分之一),如果該模型的優良表現能夠得到廣泛驗證,這一模型將是在資源受限的情況下,在研究和工程方面讓人印象深刻的一次展示。
[廣告] 請繼續往下閱讀...