當(dāng)前位置：首頁 >綜合 >Ai2發(fā)布開源AI模型，讓機(jī)器人在3D空間″規(guī)劃″動作正文

Ai2發(fā)布開源AI模型，讓機(jī)器人在3D空間″規(guī)劃″動作

時間：2025-10-20 20:45:22 來源：素昧平生網(wǎng) 作者：時尚閱讀：752次

　　西雅圖人工智能研究機(jī)構(gòu)Ai2（艾倫人工智能研究所）今日宣布發(fā)布MolmoAct 7B，這是開源D空一個突破性的開源具身AI模型，通過讓機(jī)器人在執(zhí)行動作前進(jìn)行"思考"，模型為機(jī)器人技術(shù)帶來了智能。讓機(jī)

　　空間推理對AI模型來說并不新鮮，器人這些模型能夠通過可視化圖像或視頻來推理世界，間″然后得出結(jié)論。規(guī)劃例如，″動用戶可以上傳圖像或視頻到OpenAI的發(fā)布ChatGPT，詢問如何組裝桌子的開源D空問題并得到答案。同樣，模型機(jī)器人AI基礎(chǔ)模型可以被指示拿起杯子并放到水槽里。讓機(jī)

　　"具身AI需要一個優(yōu)先考慮推理、器人透明性和開放性的間″新基礎(chǔ)，"首席執(zhí)行官Ali Farhadi表示。規(guī)劃"通過MolmoAct，我們不僅僅是發(fā)布一個模型；我們正在為AI的新時代奠定基礎(chǔ)，將強(qiáng)大AI模型的智能帶入物理世界。"

　　大多數(shù)機(jī)器人AI模型通過推理提供給它們的語言來運(yùn)行，分解自然語言句子——比如上面的例子"拿起柜臺上的杯子放到水槽里"——并將其轉(zhuǎn)化為動作。它們通過結(jié)合從攝像頭和其他傳感器獲得的知識以及命令來做到這一點(diǎn)。

　　Ai2表示，MolmoAct是該公司稱為動作推理模型（ARM）的新類別AI模型中的首個，它解釋高級自然語言，然后推理出一系列物理動作計劃，以在現(xiàn)實世界中執(zhí)行這些動作。與市場上當(dāng)前作為視覺語言動作基礎(chǔ)模型運(yùn)行的機(jī)器人模型不同，ARM將指令分解為一系列航點(diǎn)和動作，這些航點(diǎn)和動作考慮了模型能夠看到的內(nèi)容。

　　"一旦它看到世界，它就會將整個世界提升到3D中，然后繪制軌跡來定義其手臂將如何在該空間中移動，"Ai2計算機(jī)視覺團(tuán)隊負(fù)責(zé)人Ranjay Krishna在接受采訪時表示。"所以，它為未來做規(guī)劃。在完成規(guī)劃后，它才開始采取行動并移動關(guān)節(jié)。"

　　ARM和VLA模型都充當(dāng)機(jī)器人的"大腦"，包括AI模型機(jī)器人初創(chuàng)公司Physical Intelligence的pi-zero、英偉達(dá)公司用于人形機(jī)器人的GR00T N1、學(xué)術(shù)研究人員實驗常用的70億參數(shù)開源模型OpenVLA，以及930億參數(shù)的Octo模型。參數(shù)指的是模型用來做決策和預(yù)測的內(nèi)部變量數(shù)量。MolmoAct包含70億個參數(shù)，因此名稱中有7B。

　　該公司使用256個英偉達(dá)H100圖形處理單元集群上的1800萬個樣本來訓(xùn)練模型，預(yù)訓(xùn)練大約在一天內(nèi)完成。微調(diào)使用64個H100大約需要2小時。相比之下，英偉達(dá)的GR00T-N2-2B使用1024個H100在6億個樣本上進(jìn)行訓(xùn)練，而Physical Intelligence使用9億個樣本和未披露數(shù)量的芯片訓(xùn)練pi-zero。

　　"很多這些公司給你這些技術(shù)報告，但這些技術(shù)報告看起來是這樣的：它們中間有一個大黑盒，上面寫著'Transformer'，對吧？除此之外，你真的不知道發(fā)生了什么，"Krishna說。

　　與市場上許多當(dāng)前模型不同，MolmoAct 7B是在大約12000個來自真實環(huán)境（如廚房和臥室）的"機(jī)器人事件"精選開放數(shù)據(jù)集上訓(xùn)練的。這些演示用于映射目標(biāo)導(dǎo)向的動作——比如整理枕頭和收拾洗衣。

　　Krishna解釋說，MolmoAct通過完全開放克服了這個行業(yè)透明度挑戰(zhàn)，提供其代碼、權(quán)重和評估，從而解決了"黑盒問題"。它既在開放數(shù)據(jù)上訓(xùn)練，其內(nèi)部工作原理也是透明和公開可用的。

　　為了增加更多控制，用戶可以在執(zhí)行前預(yù)覽模型的計劃動作，其預(yù)期運(yùn)動軌跡疊加在攝像頭圖像上。這些計劃可以使用自然語言或在觸摸屏上繪制修正來修改。

　　這為開發(fā)人員或機(jī)器人技術(shù)人員在家庭、醫(yī)院和倉庫等不同環(huán)境中控制機(jī)器人提供了細(xì)粒度方法。

　　Ai2表示，該公司使用SimPLER評估了MolmoAct的預(yù)訓(xùn)練能力，這是一個使用一組模擬測試環(huán)境來測試常見真實世界機(jī)器人設(shè)置的基準(zhǔn)。使用該基準(zhǔn)，該模型實現(xiàn)了72.1%的最先進(jìn)任務(wù)成功率，擊敗了來自Physical Intelligence、谷歌、微軟和英偉達(dá)的模型。

　　"MolmoAct是我們進(jìn)入這個領(lǐng)域的第一次嘗試，表明推理模型是訓(xùn)練這些大規(guī)模機(jī)器人基礎(chǔ)模型的正確方式，"Krishna說。"我們的使命是實現(xiàn)真實世界的應(yīng)用，所以任何人都可以下載我們的模型，然后為他們的任何目的進(jìn)行微調(diào)，或者嘗試開箱即用。"

　　Q&A

　　Q1：MolmoAct 7B是什么？它有什么特別之處？

　　A：MolmoAct 7B是由Ai2發(fā)布的突破性開源具身AI模型，屬于動作推理模型（ARM）新類別。它的特別之處在于能夠解釋高級自然語言，然后推理出物理動作計劃，在執(zhí)行前先進(jìn)行"思考"和3D空間規(guī)劃，而不是直接執(zhí)行動作。

　　Q2：MolmoAct與其他機(jī)器人AI模型有什么區(qū)別？

　　A：與傳統(tǒng)的視覺語言動作模型不同，MolmoAct會將整個世界提升到3D空間，繪制軌跡定義手臂移動路徑，為未來做規(guī)劃后才開始行動。它還完全開源，提供代碼、權(quán)重和評估，解決了行業(yè)中的"黑盒問題"，用戶還可以預(yù)覽和修改機(jī)器人的計劃動作。

　　Q3：MolmoAct的訓(xùn)練數(shù)據(jù)和性能如何？

　　A：該模型使用約12000個來自真實環(huán)境的"機(jī)器人事件"數(shù)據(jù)集訓(xùn)練，在256個英偉達(dá)H100 GPU上用1800萬樣本預(yù)訓(xùn)練約一天完成。在SimPLER基準(zhǔn)測試中，它實現(xiàn)了72.1%的任務(wù)成功率，超越了Physical Intelligence、谷歌、微軟和英偉達(dá)的模型。

特別聲明：以上文章內(nèi)容僅代表作者本人觀點(diǎn)，不代表新浪網(wǎng)觀點(diǎn)或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與新浪網(wǎng)聯(lián)系。

(責(zé)任編輯：綜合)

[1]

[2]

[3]

上一篇：泳壇傳奇再續(xù)輝煌：戚烈云與戴麗華在新加坡大師賽的感人時刻
下一篇：車企倒閉，超600萬“爛尾車”被拋棄，誰來買單？

相關(guān)內(nèi)容