10 月 10 日消息,字節(jié)跳動(dòng)研究團(tuán)隊(duì)最新推出了第二代機(jī)器人大模型 GR-2(Generative Robot2.0),其亮點(diǎn)在于創(chuàng)新構(gòu)建“機(jī)器人嬰兒期”學(xué)習(xí)階段,模仿人類成長(zhǎng)學(xué)習(xí)復(fù)雜任務(wù),具備卓越的泛化能力和多任務(wù)通用性。字節(jié)跳動(dòng)研究團(tuán)隊(duì)推出的第二代機(jī)器人大模型 GR-2 具有諸多亮點(diǎn):
- 訓(xùn)練過(guò)程:
- 預(yù)訓(xùn)練:和許多大模型一樣,GR-2 的訓(xùn)練包括預(yù)訓(xùn)練和微調(diào)兩個(gè)過(guò)程。在預(yù)訓(xùn)練階段,GR-2 “觀看” 了多達(dá) 3800 萬(wàn)個(gè)來(lái)自各類公開(kāi)數(shù)據(jù)集的互聯(lián)網(wǎng)視頻,這些視頻涵蓋了家庭、戶外、辦公室等多種日常場(chǎng)景,這讓 GR-2 具備了學(xué)習(xí)多種操作任務(wù)和在多種環(huán)境中泛化的潛能,擁有了對(duì)世界的深刻理解。
- 微調(diào):在經(jīng)歷大規(guī)模預(yù)訓(xùn)練后,通過(guò)在機(jī)器人軌跡數(shù)據(jù)上進(jìn)行微調(diào),GR-2 能夠預(yù)測(cè)動(dòng)作軌跡并生成視頻。這種能力提升了其動(dòng)作預(yù)測(cè)的準(zhǔn)確性,也為機(jī)器人的智能決策提供了新的方向。
- 任務(wù)表現(xiàn):
- 高成功率:在多任務(wù)學(xué)習(xí)測(cè)試中,GR-2 能夠完成 105 項(xiàng)不同的桌面任務(wù),平均成功率高達(dá) 97.7%。
- 強(qiáng)泛化能力:其強(qiáng)大之處不僅在于能夠處理已知任務(wù),更在于面對(duì)未知場(chǎng)景和物體時(shí)的泛化能力。無(wú)論是全新的環(huán)境、物體還是任務(wù),GR-2 都能夠迅速適應(yīng)并找到解決問(wèn)題的方法。
- 實(shí)際應(yīng)用突破:
- 端到端揀選:在實(shí)際應(yīng)用中,GR-2 相比前一代的一個(gè)重大突破在于能夠端到端地完成兩個(gè)貨箱之間的物體揀選。無(wú)論是透明物體、反光物體、柔軟物體還是其他具有挑戰(zhàn)性的物體,GR-2 均能準(zhǔn)確抓取,展現(xiàn)了其在工業(yè)領(lǐng)域和真實(shí)倉(cāng)儲(chǔ)場(chǎng)景的巨大潛力。
不過(guò),盡管 GR-2 在互聯(lián)網(wǎng)視頻上接受了大規(guī)模的預(yù)訓(xùn)練,但真實(shí)世界動(dòng)作數(shù)據(jù)的規(guī)模和多樣性仍然有限,這也是其未來(lái)需要改進(jìn)的方向。總體而言,GR-2 預(yù)示著機(jī)器人大模型技術(shù)將爆發(fā)出巨大潛力和無(wú)限可能。ByteDance Research 提出機(jī)器人大模型,具備世界建模和強(qiáng)大泛化能力 |