TrackVLA是一款具備純視覺環境感知、自然語言指令驅動、可自主推理、端到端輸出語言和機器人動作、具備零樣本(Zero-Shot)泛化能力,且由仿真合成動作數據訓練的具身大模型。它讓機器人擁有“聽→看→懂→走”的閉環運動能力:一雙眼睛看世界、一個智能“大腦”做推理,無需提前建圖、不依賴遙操控制,真正實現語言驅動、泛化感知、自主推理、智能交互與運動。用戶通過自然語言即可發出指令,例如“跟著穿黑衣服灰褲子的人”,系統能夠自動識別目標并跟隨前行;面對更復雜的場景,機器人也能理解如“跟著前面帶黃色頭盔的人”或“跟著拿粉色袋子的人”等多屬性描述,展現出高度泛化的語言理解與環境感知能力。如果目標走出視野,它也不會原地“發呆”,而是通過實時的空間智能和大模型推理能力根據目標運動軌跡“分析出”目標的大致位置,并規劃軌跡重新找回目標。
傳統機器人通常以“指令理解→環境感知→目標識別→路徑規劃”模塊化的形式單獨處理分解的子任務,有的甚至還要對工作環境提前構建地圖。而銀河通用通過跨本體應用的策略,把這些能力通過一個統一的模型TrackVLA完成,并賦能到宇樹的機器狗上,展現出以下幾大能力:
1、善運動、會思考、易交互:TrackVLA用一個大模型集成了感知能力、推理能力、運動能力和交互能力。可在復雜工作環境中清晰辨明跟隨對象,提供智能專屬服務,從而實現產品級的交互體驗。
2、無需建圖,輕松部署:TrackVLA讓機器人不再需要提前建圖,而是像人一樣可以在不同環境中自主導航。哪怕是沒見過的商場、電梯、游樂區,它都能像人類一樣依靠模型內嵌的環境理解知識“現學現走”。
3、無懼未知場景:即便是在未訓練過的場景中,它也能精確導航、自主推理、穩定跟隨、智能交互,也就是具備真正的 “Zero-Shot Navigation”。在兒童游樂區、狹窄通道等復雜場景中,它能實時識別障礙物(包括兒童、玩具、地面水漬等),分析可通行區域,并可正確認知自身本體能力,自主推理出自身構型支持的合理路線。
4、無懼環境光線變化:從室外陽光到室內昏暗、從電梯鏡面反射到超市貨架夾縫,TrackVLA 展現出極強魯棒性,無需專門調參或切換模式。
5、遠程可視守護:通過 App,用戶可以實時看到機器人眼中的第一視角,掌握跟隨目標動態。系統還能主動提醒風險行為(如小朋友奔跑、老人跌倒),提供“移動守護”。
此外,TrackVLA 不僅能穩定跟隨人類,還可以泛化至任意移動目標。比如讓機器狗跟隨一只路上偶遇的動物狗狗,其目標形態、運動方式、遮擋情況都非常不確定。TrackVLA 也能表現出同樣穩定的跟隨能力。