吴梦梦av一区二区三区,啊啊啊啊操我好爽视频在线观看,国产乱乱无码,久久精品亚洲天堂av

每日經(jīng)濟新聞
頭條

每經(jīng)網(wǎng)首頁 > 頭條 > 正文

效率躍升1.71倍,字節(jié)再降MoE訓練成本,為何AI玩家接連開源最新技術?

每日經(jīng)濟新聞 2025-03-11 23:59:08

3月10日,字節(jié)跳動豆包大模型團隊發(fā)布針對MoE架構的通信優(yōu)化系統(tǒng)COMET,旨在通過細粒度計算-通信重疊技術優(yōu)化大模型訓練。COMET已應用于萬卡級生產(chǎn)集群,累計節(jié)省數(shù)百萬GPU小時資源。隨著DeepSeek等公司開源熱潮興起,更多大模型玩家也紛紛跟進,以擴大市場份額、構建生態(tài)系統(tǒng)并提升品牌形象。

每經(jīng)記者 楊昕怡    每經(jīng)實習編輯 余婷婷    

訓練大模型的成本之高一直是行業(yè)痛點,各路玩家都在思考如何用技術創(chuàng)新把成本“打”下來。

3月10日,字節(jié)跳動豆包大模型團隊發(fā)布了針對MoE(混合專家模型)架構的通信優(yōu)化系統(tǒng)COMET,該方案通過細粒度計算-通信重疊技術,助力大模型訓練優(yōu)化。據(jù)豆包大模型團隊介紹,COMET已實際應用于萬卡級生產(chǎn)集群,累計節(jié)省了數(shù)百萬GPU(圖形處理器)小時資源。此外,COMET還可與豆包大模型團隊此前發(fā)布的新一代稀疏模型架構UltraMem結合,實現(xiàn)協(xié)同優(yōu)化。 

“在萬卡集群上做測試的這個經(jīng)驗,國內很少能有。”一位頭部大模型算法工程師在接受《每日經(jīng)濟新聞》記者采訪時表示,“目前很可能只有字節(jié)有這一經(jīng)驗,而且還分享出來了。雖然現(xiàn)在國內大部分公司都沒有萬卡,但隨著行業(yè)往后發(fā)展,這一技術和先行經(jīng)驗是很重要的。”

可以看到的是,自DeepSeek的開源模型R1在全球范圍內“爆紅”以來,國內更多大模型玩家以更高的頻率進行著技術開源。對此,北京市社會科學院副研究員王鵬向《每日經(jīng)濟新聞》記者表示,大模型公司選擇優(yōu)秀技術開源,對于擴大市場份額、吸引合作伙伴構建生態(tài)、提升公司的品牌形象和知名度等方面均有幫助。

MoE訓練效率提升1.71倍,字節(jié)開源COMET技術

3月1日,DeepSeek在知乎發(fā)布了“開源周”后的“彩蛋”,首次公布了模型降本增效的技術細節(jié)以及理論上高達545%的利潤率。

DeepSeek通過MoE架構的創(chuàng)新讓激活參數(shù)比大幅下降,使得同等效果的大模型所需的算力明顯下降。“671B的模型,在處理每個問題時,被調用激活的專家模型參數(shù)僅約37B,算力需求起碼降低到原來的約二十分之一。”阿里云無影事業(yè)部總裁張獻濤曾在接受《每日經(jīng)濟新聞》記者采訪時表示。

而豆包團隊注意到,MoE架構的稀疏特性導致計算和通信間的依賴動態(tài)且復雜,其分布式訓練仍面臨著跨設備通信開銷巨大的成本挑戰(zhàn)。

3月10日,豆包大模型團隊發(fā)布了針對MoE模型的通信優(yōu)化系統(tǒng)COMET。據(jù)介紹,COMET具體通過共享張量依賴解析機制,將共享張量沿Token維度或隱層維度切割,使通信與計算的最小單元對齊;同時通過動態(tài)負載分配算法,根據(jù)輸入規(guī)模和硬件環(huán)境實時調整線程塊分配,消除跨設備通信帶來的等待延遲。

一位豆包大模型的技術人員告訴《每日經(jīng)濟新聞》記者,COMET和DeepSeek的DualPipe(雙向并行流水線技術)都用于降低MoE的通信開銷,但方法不同。記者了解到,DualPipe通過創(chuàng)新的雙向流水線并行技術,大幅提高模型的訓練效率。

豆包大模型團隊稱,COMET這一創(chuàng)新在大規(guī)模MoE模型上可達到單層1.96倍加速,端到端平均1.71倍效率提升。目前,COMET已實際應用于萬卡級生產(chǎn)集群,助力MoE模型高效訓練,并已累計節(jié)省了數(shù)百萬GPU小時資源。

“用100張卡測試的波動可能很少,因為(顯卡)出問題的概率較小,但1萬張卡的波動就會大很多。”一位頭部大模型算法工程師向《每日經(jīng)濟新聞》記者表示,此次字節(jié)將這一成果開源,為整個行業(yè)提供了不可多得的萬卡集群實驗經(jīng)驗,“國內有1萬張卡的企業(yè)也就幾家。”此外,豆包大模型還表示,COMET還可與豆包大模型團隊此前發(fā)布的新一代稀疏模型架構UltraMem結合,實現(xiàn)協(xié)同優(yōu)化。

《每日經(jīng)濟新聞》記者2月11日從豆包大模型團隊了解到,團隊已經(jīng)提出了全新的稀疏模型架構UltraMem,該架構有效解決了MoE推理時高額的訪存問題,推理速度較MoE架構提升2-6倍,推理成本最高可降低83%。

圖片來源:視覺中國 VCG211550173673

爭奪“源神”,為何AI玩家接二連三開源最新技術?

從在全球范圍內引起熱議的DeepSeek-R1到開源周的“大放送”,DeepSeek因持續(xù)開源核心技術被業(yè)內稱為“源神”?;贒eepSeek的動作,國內大模型廠商紛紛跟進并加速了開源行動。

2月18日,階躍星辰首次開源其Step系列基座模型。該模型分別是目前全球范圍內參數(shù)量最大的開源視頻生成模型階躍Step-Video-T2V,以及行業(yè)內首款產(chǎn)品級開源語音交互大模型階躍Step-Audio。MiniMax也在1月15日發(fā)布并開源新一代01系列模型,包含基礎語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。

除了頭部的AI初創(chuàng)公司外,重投大模型的多家互聯(lián)網(wǎng)巨頭也在緊跟開源這股熱潮,其中阿里一直是堅定的“開源派”。3月3日,開源社區(qū)Hugging Face最新榜單顯示,開源僅6天的阿里萬相大模型已反超DeepSeek-R1,登頂模型熱榜、空間榜兩大榜單,成為近期全球開源社區(qū)最受歡迎的大模型。3月6日凌晨,阿里再度拋出新的開源成果。阿里云通義千問官微宣布發(fā)布并開源最新的推理模型QwQ-32B。據(jù)介紹,這是一款擁有320億參數(shù)的模型,其性能可與具備6710億參數(shù)(其中370億被激活)的DeepSeek-R1媲美。

“開源優(yōu)秀技術可以獲得更多聲量,也可以吸引更多企業(yè)、開發(fā)者進行二次開發(fā),有助于生態(tài)構建。”一位豆包大模型的技術人員向《每日經(jīng)濟新聞》記者表示。

同樣,王鵬也認為,開源模式能促進技術發(fā)展、創(chuàng)新,既可幫助大模型公司擴大其在全球AI市場的影響力和份額,也可以吸引到更多參與者加入到生態(tài)系統(tǒng)的共建中,從而降低自身研發(fā)成本。

不過,也有不同的聲音,大模型公司選擇開源模式究竟是為了名還是利?“如果開源的技術比閉源的更好用,免費的技術比收費的更好用,那么誰還用閉源和收費的?”工信部信息通信經(jīng)濟專家委員會委員盤和林在接受《每日經(jīng)濟新聞》記者采訪時表示,“實際上是以DeepSeek為代表的開源應用,在性能上追平了競爭對手。這導致很多大模型選擇了開源的路徑來應對。開源對于企業(yè)來說,并不能創(chuàng)造利潤,但能帶來用戶,互聯(lián)網(wǎng)流量為王,利潤次之。”

如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 開源 Ai 字節(jié)

歡迎關注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0

普兰县| 麻豆国产在线不卡一区二区| 色w w w| 亚洲自自| 国产精品免费不卡无码av| 欧美日本中文字幕在线观看| 黄片 一区二区 在线| 日韩性无码| 老熟妇欲乱一区二区三区| 色色另类| 熟妇一区,二区,三区| 美女厕所一区二区| 久久精品亚洲精品国产色婷| 精品人妻无码中文字幕第一区色戒| 欧美三级不卡七区电影在线观看| 日美韩av网站| 美日韩精品一区| 久久我被继夫添我阳道舒服视频| 久久夜色精品国产飘飘| 色交xxxxx| 国产涩涩涩| 久热久视频| 亚洲精品国产V片在线观看| 偷拍无码| 高潮喷水无码成人影片在线观看| 99国产精品无码| 国产亚洲精品影视在线| 午夜成人毛片区大鱼直播免费看| 亚洲国产中文成人无码aV在线| 国产久嫩草精品福利| 日韩新av| 97精品国产AV片国产色戒| 亚州精品白浆久久毛片| 四虎影频| 日韩无打码视频在线播放| 午夜久久直播| 亚洲伊人青青草一区二区| 亚洲中文字幕无码第一区| 伊人一本综合婷婷久| 人妻无码aⅴ一区二区三区| 久久国产精品岛国搬运工|