每日經(jīng)濟新聞 2025-03-29 21:32:53
◎如果從更廣泛的意義來看,比如讓人工智能理解人類的語言、解決實際生活中的具體問題,像做家務、做飯、洗碗等,距離實現(xiàn)這種程度的AGI,還有很長距離,可能還要很多年,至少5到10年甚至更長時間。
◎今年在人工智能的應用上會出現(xiàn)大爆發(fā)。因為國產(chǎn)模型能夠用較小的算力實現(xiàn)相當?shù)男阅?,所以一定會進入應用落地階段。
每經(jīng)記者 張蕊 每經(jīng)編輯 陳星
3月27日,2025中關村論壇年會在京開幕,論壇將持續(xù)至3月31日。今年論壇年會的主題是“新質(zhì)生產(chǎn)力與全球科技合作”。
3月29日下午,北京智源人工智能研究院(以下簡稱“智源研究院”)院長王仲遠在未來人工智能先鋒論壇上作了《具身智能技術演進與生態(tài)共建》的演講。
在該場論壇上,智源研究院發(fā)布首個跨本體具身大小腦協(xié)作框架RoboOS與開源具身大腦RoboBrain,可實現(xiàn)跨場景多任務輕量化快速部署與跨本體協(xié)作,推動單機智能邁向群體智能。
論壇開始前,王仲遠接受了《每日經(jīng)濟新聞》(以下簡稱NBD)記者采訪。
智源研究院是在科技部和北京市支持下,聯(lián)合北京人工智能領域優(yōu)勢單位共建的人工智能領域的新型研發(fā)機構。王仲遠是第二任院長,他在2018年榮獲“《麻省理工科技評論》35歲以下科技創(chuàng)新35人”;并有微軟、Facebook(現(xiàn)Meta)、美團、快手的工作經(jīng)歷。
NBD:隨著DeepSeek的突破,是不是意味著算力對大模型來說已經(jīng)不是一個問題了?
王仲遠:我不太認同這個觀點。DeepSeek確實取得了出色成果,確保我們能在有限的算力之下訓練出與ChatGPT-4相當?shù)拇竽P?。然而,我們要意識到,這樣的技術也可能被國際上其他機構和國家使用,從而推動大模型向更大規(guī)模的方向發(fā)展。
如今,由于工程上的優(yōu)化,訓練更大規(guī)模參數(shù)的模型成為可能。這時候如果Scaling Law(規(guī)模定律,即模型規(guī)模越大,其智能水平就越高)還有效的話,模型的性能就有可能進一步提升。
所以,現(xiàn)在的模型,尤其是基礎模型看起來遇到了一定的瓶頸,或者說其性能提升相對緩慢,一個很重要的因素是數(shù)據(jù)(不足),另外算力限制也是瓶頸,所以我不認為現(xiàn)在的算力就足夠使用了,我認為整個大模型的技術還遠未到盡頭,算力仍不可或缺。
NBD:業(yè)內(nèi)都說今年是人工智能普惠發(fā)展的轉(zhuǎn)折點,您怎么看?您認同這個觀點嗎?
王仲遠:對,首先,我認為今年在人工智能的應用上會出現(xiàn)大爆發(fā)。因為國產(chǎn)模型能夠用較小的算力實現(xiàn)相當?shù)男阅?,所以一定會進入應用落地階段。
中國擁有海量的應用場景和應用需求,這是我們的優(yōu)勢。當基礎模型能力提升后,其實我們有眾多的產(chǎn)品經(jīng)理和創(chuàng)業(yè)者,可以將模型進行落地應用,尤其是大語言模型的落地應用,存在巨大的產(chǎn)業(yè)爆發(fā)潛力。
當然,我也反復強調(diào)過,大語言模型是遠遠不夠的。即使不談機器人,我們也可以看到,真實的產(chǎn)業(yè)中存在大量多模態(tài)數(shù)據(jù),比如流程圖、醫(yī)療領域的X光片數(shù)據(jù)、CT數(shù)據(jù)以及各行業(yè)的傳感器數(shù)據(jù)等,它們都不是簡單的文本數(shù)據(jù)。所以,多模態(tài)大模型是繞不開的一種能力。
現(xiàn)在的多模態(tài)大模型,尤其是多模態(tài)理解模型,應該說還處于相對早期的階段,雖然有一些解決方案,比如以大語言模型為核心的解決方案。但很多大語言模型在增加了多模態(tài)能力后,其原有的語言能力會有所退化。這也是智源研究院去年著重向統(tǒng)一原生多模態(tài)方向突破的重要原因。
去年,智源研究院正式發(fā)布Emu3,這是統(tǒng)一原生的多模態(tài)大模型,能夠?qū)⑽谋?、圖像、視頻從一開始就進行原生的統(tǒng)一,將理解和生成進行統(tǒng)一。我們認為,這種統(tǒng)一的多模態(tài)大模型有望助力大模型在各行業(yè)落地,取得更好的效果。
NBD:您覺得我們距離實現(xiàn)AGI(通用人工智能)還有多久?還需要解決哪些問題?
王仲遠:很坦誠地講,目前AGI還沒有非常明確的定義和廣泛的共識。如果僅就文字能力的AGI來看,其實某種程度上已經(jīng)達到了AGI。如果以圖靈測試為判斷以往人工智能是否實現(xiàn)AGI的標準的話,至少在文字層面,人工智能很可能已經(jīng)達到了AGI。
如今的大語言模型除了其通用性以外,在很多特定領域,比如數(shù)學、編程等,已能接近碩士乃至博士水平。從這些方面來看,我們可以認為人工智能已經(jīng)部分達到了某種程度的AGI。
但如果從更廣泛的意義來看,比如讓人工智能理解人類的語言、解決實際生活中的具體問題,像做家務、做飯、洗碗等,距離實現(xiàn)這種程度的AGI,我認為還有很長距離,可能還要很多年,至少5到10年甚至更長時間。因為在這個過程中,它依賴于本體的能力,依賴于對世界模型構建的進展,依賴于不同的落地場景中數(shù)據(jù)的積累等,所以還需要經(jīng)歷很長的周期。
NBD:具身智能的物理交互是不是會成為AGI的一個核心能力?
王仲遠:它肯定是我們理解的廣泛意義上的AGI核心能力,最終人工智能要從數(shù)字世界走向物理世界,就一定要跟真實的世界進行交互,并且在交互中學習。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP