銀河通用聯(lián)合北京智源人工智能研究院(BAAI)及北京大學和香港大學研究人員,研發(fā)出首個全面泛化的端到端具身抓取基礎大模型 GraspVLA。其預訓練完全基于合成大數據,訓練數據達到了有史以來最大的數據體量——十億幀「視覺-語言-動作」對,掌握泛化閉環(huán)抓取能力、達成基礎模型;預訓練后,模型可直接 Sim2Real在未見過的、千變萬化的真實場景和物體上零樣本測試,全球首次全面展現了七大卓越的泛化能力,滿足大多數產品的需求;而針對特別需求,后訓練僅需小樣本學習即可遷移基礎能力到特定場景,維持高泛化性的同時形成符合產品需求的專業(yè)技能。
針對零售商超場景,銀河通用自行研發(fā)的GroceryVLA采用端到端模型架構,突破傳統(tǒng)“視覺+軌跡規(guī)劃”方案,自主識別并完成商品抓取。模型無需路徑規(guī)劃,即可在緊密排布、涵蓋數十種 SKU的真實貨架上穩(wěn)定作業(yè),無需針對每種商品包裝單獨調參,支持軟包裝(如袋裝面包、鹵蛋)、硬盒、塑料瓶、透明果凍杯等多樣形態(tài)商品的精準抓取,實現了跨品類的統(tǒng)一抓取策略。無論是剛性包裝還是柔性物體,都能精準取放,滿足全品類零售場景需求,可以直接泛化至全新環(huán)境。并在抓取過程中,具備實時閉環(huán)策略調整能力,能夠快速處理現場人為干擾(如貨物被移走/推擠),任務連續(xù)性達99%以上,遠超行業(yè)平均水平。