時間:2025-09-25
2025世界機器人大會8月8日至12日在北京經濟技術開發區北人亦創國際會展中心舉行。本屆大會設置3天主論壇和31場系列活動,邀請416位國內外專家學者、企業家、國際機構代表,分享新技術、新產品、新應用。
國際機器人聯合會技術委員會主席亞歷山大·維爾以《工業機器人擁抱數字孿生與人工智能(AI)技術》為主題發表了演講。
大家好!今天我主要講講工業機器人如何擁抱數字孿生和AI。這個話題可能有些誤導性,因為人們往往對“人形機器人”和“AI”感到非常興奮,但工業機器人領域的視角與AI研究者或公眾的期望可能有所不同。我的分享將從生產工程學的角度出發,首先介紹整體議程,然后深入探討未來有應用前景的AI技術、培訓成本、數字孿生的實際應用場景等。
什么在驅動著機器人的發展呢?是一個實體的生成型AI,各種各樣的AI對于單一目的的人形機器人都很重要,為什么會這樣?我給大家說一下人形機器人的優勢和劣勢。
在銷售宣傳中,人們常說人形機器人可以自動化許多工作,無需復雜的工程,AI能夠處理這些復雜性。然而,現實并非如此簡單。目前我們使用的六關節雙臂機器人(共14個關節)已經非常復雜,而人形機器人通常多達40個關節,其控制難度更大。雖然人們希望AI能夠解決這些復雜性,但目前的技術尚未達到預期。
有人認為人形機器人會因為大眾市場的普及而變得更便宜。這在長期來看是可能的,但短期內價格并不會大幅下降。此外,人形機器人具備快速人機互換的能力,為制造業提供了更高的靈活性,尤其是在勞動力短缺的背景下,人形機器人有望成為重要的補充力量。
據稱,制造業中近50%的人工勞動力可以被人形機器人取代。目前,一些制造商已經推出雙臂機器人,但人形機器人在實現雙臂移動方面仍面臨挑戰。例如,富士康等公司更傾向于使用單臂機器人來替代生產線工人,這在靈活性和編程難度之間取得了較好的平衡。
當前的人形機器人仍不具備協作能力,這是其在工業應用中的一大限制。此外,真正多功能的人形機器人仍處于早期研發階段,尚需大量投入,尤其是在視覺、語言和動作模型(VLA)方面。
目前行業對人形機器人的期望過于樂觀,投資者、客戶和政界人士對技術進展的信任面臨風險。我們不應忘記宏大的愿景,但愿景不能建立在虛假承諾之上。技術發展不應追求短期記錄的突破,而應注重交付可持續、可靠的結果。
有哪些需要進一步發展呢?如安全認證、視覺與觸覺技術、靈巧手抓取的技術升級,協作場景下的降速運行會降低生產效率的問題。還有一點就是工業機器人必須具備長期技術可用性,不能在24小時連續工作后出現故障,這也是人形機器人亟需改進的方向之一。
最后,模仿人是否真的有意義呢?許多機器人設計模仿人類,試圖突破人體極限,如減少彎腰或高空作業。然而,這種模仿也帶來了雙重系統的局限性,導致整體性能受限。從生產工程學角度來看,具備輪子的機器人可能更可靠,能夠完成99%的任務。
AI在機器人領域的難點主要集中在視覺、語言和動作模型(VLA)的融合上。這類模型基于大型語言模型,能夠處理文本和圖像,并將語言與圖像結合,生成相應的動作指令。要研究語言,僅僅進行詞源嵌入是遠遠不夠的,還需要引入定位嵌入和位置嵌入。也就是說,我們需要能夠區分“狗咬人”和“人咬狗”之間的差異。由于傳統的詞源分析往往是獨立處理每個詞語,因此必須進一步處理詞語之間的關系,尤其是語序和位置所帶來的語義變化。此外,還需要引入多頭注意力機制,以更好地理解整個句子的意義。通過這一機制,我們可以識別出句子中各個詞語之間的對應關系,明確某個詞語具體指向句子的哪一部分,從而更準確地把握整體語義。
因此,像 ChatGPT 這樣的系統擁有數十億個參數,通過嵌入和分析機制,能夠生成一個完整的句子,并相應地預測下一個可能出現的詞語。在處理視覺影像時,原理也是類似的:系統通過一個視覺編碼器來“看”圖像,并將圖像劃分為多個區塊,這些區塊的作用類似于句子中的詞語?;?nbsp;RGB 值對圖像進行分割后,系統會對每個圖像塊進行嵌入處理。圖像塊位于圖片的上端還是下端并不重要,關鍵在于判斷圖像中是一個物體還是多個物體。這一過程涉及多頭注意力機制,同時也需要額外數十億的參數來對視覺信息進行解碼。
我們目前已經擁有了視覺語言模型,一些機器人也已經集成了這類技術。例如,你可以問ChatGPT“計算機在哪里?”它能夠指出計算機的位置。有一個案例展示了AI 對圖像的理解能力:如果問一個孩子“這個展廳里有多少把椅子”,由于展廳中椅子種類繁多、擺放密集,這個問題對孩子來說并不容易回答。
如果我們把同樣的問題問給 ChatGPT,它會識別出 13 把椅子。然而,它無法識別出其中一把是椅子的模型,或者某些椅子的陰影被誤認為是實際的椅子。此外,還有一把椅子的鏡像反射也被計入了總數,導致了誤判。如果你繼續詢問:“有沒有未組裝的椅子?”它也能識別出一把尚未組裝完成的椅子。通過這些例子我們可以看到,要讓系統真正理解語言和圖像之間的關系,需要一個能夠將這些信息整合起來的模型,并最終輸出相應的操作指令。例如,它需要告訴我們應該將機器人的工具中心點(TCP)調整多少才能做出正確響應。在我們的實驗中,通過 ER7 機器人控制抓取器將其打開至 50% 的程度,來模擬具體操作。為了訓練這樣的系統,我們需要數百萬張帶有標簽的圖像,比如蘋果的圖片,以便模型能夠在數據庫中進行有效比對和計算。例如,如果一張圖像中的椅子外觀類似蘋果,系統必須能夠識別出它在語義上屬于“椅子”而非“蘋果”。為了使系統能夠從這些信息中生成實際的操作行為,我們必須向它展示正確的操作方式,即通過演示告訴它在特定情境下應該如何行動。
為了讓機器人掌握特定任務,需要有成千上萬人投入數千小時來演示這些工作,以此向系統展示應有的操作方式。隨后,系統可以對比機器人所學到的動作與人類示范之間的差異,并據此計算差距,進而培訓和訓練系統以執行正確的操作。這個理念雖然很好,但也伴隨著高昂的成本。如果以美元來衡量,僅進行視覺語言模型的訓練就可能花費數百萬美元。例如,使用H100 GPU進行算力支持,僅訓練過程就可能高達2180萬美元,而即便是較為基礎的視覺語言訓練,也可能需要約200萬美元,涉及170萬小時的計算資源。這只是訓練階段的成本。接下來的動作微調同樣不容忽視。為了讓系統掌握準確、合適的行為,還需要向其展示大量具體的動作示例。這一過程可能又要耗費幾千甚至上萬小時的工作量,以及數萬美元的投入,系統才能真正理解并執行相應的操作,并識別不同行為之間的差異。推理和部署階段的成本也不容小覷。對于常見的應用場景而言,整體的總成本往往可能超過幾千萬美元。
VLA模型需要高達97萬組數據,而RT2模型也需要約35萬組數據。從這些數字可以看出,訓練這類模型所需的演示數據量是非常龐大的。我們使用這些模型時,往往需要幾萬小時的演示數據,而這僅僅是面向日常任務的目標。如果考慮到工業應用的復雜性,所需的數據量和訓練成本將更加驚人。盡管如此,我們也在探索具備更強泛化能力和物理智能的模型,這類系統無需大量訓練,僅通過一個示例就能學習并完成不同機器人類型的任務。例如,RT2 就是一種視覺-語言-動作(VLA)模型,它結合了Transfer(遷移)網絡,能夠指導機器人完成任務,并在多種任務中找到解決方案。已有案例表明,該模型可以適配20多種不同的機器人類型,并完成各自不同的任務。值得一提的是,如果我們觀察其任務執行的成功率,RT2 或 OpenVLA 的成功率大約只有50%。從工程角度來看,這樣的成功率是難以接受的。因此,在現階段,我們仍然需要人類與AI協同工作,對機器人最終執行的結果進行確認和干預,以確保任務完成的質量。這也是當前視覺-語言-動作模型在實際應用中面臨的一個關鍵問題。
對于系統開發者而言,當前面臨的主要挑戰之一是模型的上下文理解能力仍然非常有限,同時存在明顯的感知缺陷,使得執行多步驟任務變得十分困難。目前系統對感知信息的處理尚不完善,特別是在支持額外傳感器數據方面存在不足,例如一些特殊的視覺和語言信息。如果要引入阻尼感知等新型傳感器,可能需要重新進行數百萬次的測試,以確保系統的穩定性和準確性。
此外,在動作執行過程中也常常會出現失敗的情況,尤其是在面對未知或未曾見過的物體時,視覺系統容易產生混淆,從而影響任務的完成效果。因此,必須進一步提升系統的成功率,才能真正滿足工業應用的需求。同時,語言理解能力仍存在明顯缺陷。如果機器人無法準確理解人類下達的指令,就無法有效執行相應的任務。還有一個關鍵難點在于反饋機制的缺失,即系統缺乏對自身操作結果的評估與修正能力,這對實際應用來說是一個較大的挑戰。
我們來看大語言模型(LLM),它可以從多達23.8億個網頁中學習,這些數據包括公共爬蟲抓取的內容、網絡存檔以及人工生成的演示數據。而對于視覺-語言-動作模型(VLA)來說,也有大約一萬小時的多模態資料可供訓練使用。在實際應用中,我們需要思考的是:人們如何教會系統在特定情境下執行特定行為?一個著名的例子來自英偉達研究部門的副總裁,他提出應通過覆蓋多樣化的數據來實現行為克隆。例如,如果我們希望機器人從正確的位置拿起一個紅色方塊,在經過幾千次訓練后,它確實可以學會完成這個任務。但如果目標變成了從藍色方塊上拿取,它就無法完成,這說明它還沒有掌握泛化能力。為了使機器人既能從紅色方塊上拿取,也能從藍色方塊上完成相同動作,就需要分別對這兩種情況進行訓練,每種情況可能都需要幾千次的重復訓練,才能最終形成一個通用的策略。更進一步,如果我們將目標平面稍微抬高幾厘米,機器人又會失敗,因為它的訓練數據中沒有包含這種高度變化的情況。同樣地,如果訓練時的背景通常是白色,而在實際應用中換成了木質背景,系統就可能出現識別錯誤,導致任務失敗。因此,我們必須根據不同場景類型重新配置。
我們必須使用大量的數據,并且這些數據中要包含各種類型的錯誤,這樣才能持續不斷地訓練和優化系統。馬斯克也提出了一個新的理念:機器人應該通過視頻來學習。因此,在 YouTube 上存在大量可用于訓練的視頻資源。據我了解,相關團隊在這方面已經投入了超過一千萬美元的成本。如果你認同這種方式,那就可以按照這個思路去實施。而我認為,另一個可行的解決方案是利用數字孿生技術來應對這一挑戰。
昨天英偉達的同事講得非常好。他提到,我們可以利用一些人類的示范操作,生成系統化的演示數據?;谏贁祹讉€基礎示例,就能夠通過計算機自動生成多達一千小時甚至幾千萬小時的訓練數據。我認為這是一個非常有價值的方向。此外,我們學院也在為工業應用開發數字孿生技術。它不僅可以用于機器人的編程,還能驗證這些程序的正確性,并支持多模態操作。同時,它也為系統模擬和控制器設計提供了有力支持。不過,在實際應用中我發現最具挑戰性的部分是“硬件在環”環節。因為我們在真實系統中通常能獲得幾毫秒級別的實時反饋,而數字孿生系統的反饋速度也必須達到類似的水平。這就帶來了一個安全方面的關鍵問題:數字孿生是否能夠及時、準確地做出反饋。
從真實的工程實踐到虛擬工程再到實際控制的過程中,很多人并沒有意識到這三者之間存在顯著差異。而虛擬指令使非常有幫助的,現場工作時間最多可以減少約75%。由于現場工作時間的縮短,相應的停機時間也隨之減少。
虛擬指令和調試技術可以用于VC的數字孿生,可以保護機器,不會產生成本的損失,可以安全測試設備,行為零風險,可以虛擬調試,顯著縮短開發周期。還支持跨地域、低風險的培訓方式,突破空間限制,便于遠程維護與協作。此外,數字孿生還可用于人工智能的訓練。我們研究所已有多個實際案例,例如如何學習單元控制軟件的操作、如何生成無碰撞的運動路徑、以及如何抓取可能發生形變的物體等。這些任務都可以通過仿真環境來訓練人工智能系統。
另一種方式是利用AI來優化數字孿生模型,使其運行速度超過原始模型,無論采用的是現實模型還是其他類型的建模方法。
最后一個應用案例來自飲料行業。從我們研究院的實踐來看,我們專門開發了基于大語言模型和視覺模型的系統,其目標非常明確:讓機器人能夠從箱子中抓取多個小包裝產品,并將其放入用于快遞的小型包裹中。在整個操作過程中,無需對機器人進行傳統意義上的編程,只需要通過點云數據進行引導,就可以訓練各種類型的機器人完成實際操作,從而勝任物流相關的工作任務。
此外,我們還可以通過大型語言模型與該系統進行交互。例如,可以發出指令“把泡泡膜取掉”,系統便會做出相應的回應。也可以詢問“箱子里有什么”之類的指令,系統中的AI助手能夠反復核查箱內物品的內容、標簽信息以及實際放置的物品,確保信息一致。這其實是一套非常精細、高度智能化的系統,專為物流場景設計。雖然它并不涉及人形機器人,只是基于一臺普通的工業機器人,但其功能強大,具備高達90%的可靠性。
在總結機器人發展的整體趨勢時,我想重點強調幾個值得關注的方向:一是人形機器人與工業機器人的演進路徑與技術特點;二是視覺-語言-動作模型(VLA)的基本原理及其當前存在的局限性;三是數字孿生技術如何應用于虛擬仿真與實際系統訓練。以上就是我今天的分享內容。