陸DeepSeek-V3訓練成本不到600萬美元 預訓練2個月僅用2048塊GPU

▲DeepSeek(深度求索)大模型。(圖/翻攝官網)

▲DeepSeek(深度求索)大模型。(圖/翻攝官網)

記者魏有德/綜合報導

大陸AI創新公司DeepSeek(深度求索)DeepSeek-V3於26日正式發佈首個版本並同步開源,這款高達671B的大模型,在預訓練階段僅用2048塊GPU訓練2個月,且只耗資557.6萬美元,引起AI行業內震動,同時,在性能上也能比肩業內AI大模型,讓全球AI研發者及業內人士關注。

[廣告] 請繼續往下閱讀.

《中信證券研報》報導,近日,DeepSeek-V3的正式發版引起AI業內廣泛高度關注,其在保證了模型能力的前提下,訓練效率和推理速度大幅提升。DeepSeek新一代模型的發佈意味著AI大模型的應用將逐步走向普惠,助力AI應用廣泛落地;同時訓練效率大幅提升,亦將助力推理算力需求高增。

DeepSeek-V3研發團隊證實,多Token預測目標(Multi-Token Prediction,MTP)有利於提高模型性能,可以用於推理加速的推測解碼。後訓練方面,DeepSeek V3引入一種創新方法,將推理能力從長思維鏈模型(DeepSeek R1)中,蒸餾到標準模型上。這在顯著提高推理性能的同時,保持了DeepSeek V3的輸出風格和長度控制。

外界分析,DeepSeek-V3極低的訓練成本或預告AI大模型對算力投入的需求將大幅下降,不過,DeepSeek雖繳出亮眼的成績單,但其統計口徑只計算「預訓練」階段,數據的配比需要做大量的預實驗,合成數據的生成和清洗也需消耗算力,此外,在訓練上做降本增效不代表算力需求會下降,只代表大廠可以用性價比更高的方式去做模型極限能力的探索。

Lepton AI創始人兼CEO賈揚清針對推理方面分析道,最重要的是,我們正式進入了分布式推理時代,「一台單GPU機器(80×8=640G)的顯存已經無法容納所有參數。雖然更新大顯存機器確實可以裝下模型,但不論如何,都需要分布式推理來保證性能和未來擴展。」

[廣告] 請繼續往下閱讀..

OpenAI聯合創始人兼前首席科學家Ilya Sutskever曾斷言稱,「我們已經達到數據峰值……AI預訓練時代無疑將終結。」部分AI投資人、創始人和CEO們也曾提及,AI在Scaling Law定律的收益正逐步衰減,「我們正處於一個新的Scaling Law時代——測試時間計算時代,即推理時代。這項能力讓AI模型在回答問題之前,能有更多時間和算力來思考,這特別有希望成為下一件大事。」

「Bloomberg Intelligence」近期刊出的報告顯示,「企業客戶可能會在2025年進行更大規模的AI投資,而AI支出增長將更側重於推理側,以實現投資變現或提升生產力。」