亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

英偉達(dá)最新分享:機(jī)器人能通過(guò)物理世界的圖靈測(cè)試嗎

來(lái)源:科技新報(bào) #英偉達(dá)# #圖靈測(cè)試#
2393

在近日紅杉資本舉辦的AI Ascent 2025演講中,NVIDIA人工智能總監(jiān)Jim Fan介紹了「實(shí)體圖靈測(cè)試」的概念,并解釋了大規(guī)模模擬將如何解鎖機(jī)器人技術(shù)的未來(lái)。

筆者針對(duì)其演講內(nèi)容進(jìn)行了梳理并編譯。

Jim Fan:

幾天前,我看到一篇部落格文章,它引起了我的注意。文章說(shuō)大模型已經(jīng)通過(guò)了圖靈測(cè)試,但卻沒(méi)人注意到。圖靈測(cè)試曾經(jīng)是神圣不可侵犯的,對(duì)吧?它是電腦科學(xué)的圣杯,其理念是,你無(wú)法區(qū)分與你對(duì)話(huà)的是人類(lèi)還是機(jī)器。

然后,我們就這么悄無(wú)聲息地通過(guò)了圖靈測(cè)試。但當(dāng)機(jī)器思考的時(shí)間多了幾秒鐘,或是云端無(wú)法調(diào)試你糟糕的程序碼時(shí),人們就會(huì)感到不滿(mǎn)。每一次突破都在平淡無(wú)奇中度過(guò),就像又一個(gè)普通的星期二。

我想提出一個(gè)非常簡(jiǎn)單的概念,叫做「物理圖靈測(cè)試」。設(shè)想一下,周日晚上你舉辦了一場(chǎng)黑客松派對(duì),周一早上,你想找人收拾這一片狼藉,并且在晚餐時(shí)為你點(diǎn)上一支精美的蠟燭讓你的伴侶開(kāi)心起來(lái)。而當(dāng)你回到家時(shí),卻無(wú)法分辨這一切是人類(lèi)還是機(jī)器的杰作。

這就是簡(jiǎn)單的實(shí)體圖靈測(cè)試。但我們現(xiàn)在進(jìn)展到什么程度了呢?快實(shí)現(xiàn)了嗎?看看這個(gè)類(lèi)似的機(jī)器人,準(zhǔn)備去工作,結(jié)果卻沒(méi)能做好。再看看機(jī)器狗面對(duì)香蕉皮的場(chǎng)景,還有被指示為你制作早餐麥片的機(jī)器人呢?

它能正確辨識(shí)牛奶,這一點(diǎn)我給它勉強(qiáng)及格。它的意圖是好的,或者說(shuō)用湯匙的體驗(yàn)就像是貴賓級(jí)的??纯矗叶加悬c(diǎn)嫉妒了,都沒(méi)人能給我這樣的體驗(yàn)。這就是我們目前的現(xiàn)況。那么,為什么解決物理圖靈測(cè)試這么困難呢?

大家都知道,研究人員常抱怨。最近,有個(gè)叫ilia的人抱怨說(shuō),預(yù)先訓(xùn)練的數(shù)據(jù)快用完了。他甚至把網(wǎng)絡(luò)比作人工智能的「化石燃料」,還說(shuō)我們用于訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)即將耗盡。只要和機(jī)器人專(zhuān)家相處一天,就知道那些深度學(xué)習(xí)研究人員有多「嬌慣」 了。

我們連「化石燃料」 都沒(méi)有。這是在英偉達(dá)總部的咖啡館進(jìn)行的數(shù)據(jù)收集場(chǎng)景。設(shè)置了人形機(jī)器人,通過(guò)操作它們來(lái)收集數(shù)據(jù)。

這就是收集到的數(shù)據(jù),機(jī)器人的關(guān)節(jié)控制訊號(hào),這些是隨時(shí)間變化的連續(xù)值,無(wú)法從網(wǎng)絡(luò)上獲取,在維基百科、YouTube或其他任何地方都找不到。人們必須自己收集。那怎么收集的呢?有一種非常復(fù)雜但也很昂貴的方法,叫做「遠(yuǎn)端操作」。讓人戴上VR,辨識(shí)手部動(dòng)作,并將動(dòng)作訊號(hào)傳送給機(jī)器人。

通過(guò)這種方式,人類(lèi)可以教機(jī)器人做事,例如從烤面包機(jī)拿出面包,然后在上面淋上蜂蜜。但可以想像,這是一個(gè)非常緩慢且痛苦的過(guò)程。

真正的機(jī)器人數(shù)據(jù)是「人力燃料」,而這比化石燃料還糟糕,因?yàn)檫@是在消耗人力。更糟的是,每個(gè)機(jī)器人每天最多只能運(yùn)作24小時(shí),甚至實(shí)際過(guò)程中遠(yuǎn)遠(yuǎn)達(dá)不到這個(gè)時(shí)長(zhǎng),因?yàn)槿藭?huì)累,機(jī)器人比人更容易累。

這就是現(xiàn)狀,那該怎么辦呢?如何突破這個(gè)障礙?機(jī)器人領(lǐng)域的「核能」 在哪里?我們需要清潔能源,不能永遠(yuǎn)依賴(lài)「化石燃料」。于是,模擬技術(shù)登場(chǎng)了。

必須離開(kāi)現(xiàn)實(shí)世界,在模擬環(huán)境中做點(diǎn)什么。所以試著讓機(jī)器人的手在模擬環(huán)境中完成超越人類(lèi)靈巧度的任務(wù),例如轉(zhuǎn)筆。對(duì)我來(lái)說(shuō)這是超人類(lèi)的技能,因?yàn)槲倚r(shí)候就放棄嘗試轉(zhuǎn)筆了。

我很高興機(jī)器人至少在模擬環(huán)境中比我做得好。那么如何訓(xùn)練機(jī)器人的手完成這樣復(fù)雜的任務(wù)呢?有兩個(gè)思路。第一,模擬速度要比即時(shí)10,000倍,這意味著在單一GPU上并行運(yùn)行10,000個(gè)實(shí)體模擬環(huán)境。這是第一點(diǎn)。第二點(diǎn)是,這10,000個(gè)模擬環(huán)境不能完全相同,必須改變一些參數(shù),例如重力、摩擦力和重量,我們稱(chēng)之為「域隨機(jī)化」。這就是模擬的原理。

為什么這樣做有效呢?想像一下,如果一個(gè)神經(jīng)網(wǎng)絡(luò)能夠控制機(jī)器人在1,000,000個(gè)不同的世界中完成任務(wù),那么它很有可能也能應(yīng)付第1,000,001世界,也就是現(xiàn)實(shí)世界。

換句話(huà)說(shuō),現(xiàn)實(shí)世界是這些訓(xùn)練場(chǎng)景的一部分。那么如何應(yīng)用呢?可以創(chuàng)造一個(gè)數(shù)位孿生體,也就是機(jī)器人和現(xiàn)實(shí)世界1:1的復(fù)制體。然后在訓(xùn)練模擬中進(jìn)行測(cè)試,再直接應(yīng)用到現(xiàn)實(shí)世界,實(shí)現(xiàn)0樣本學(xué)習(xí)。

可以用手來(lái)舉例,這是能完成的最令人印象深刻的任務(wù)之一。例如讓機(jī)器狗站在球上,然后將訓(xùn)練成果應(yīng)用到現(xiàn)實(shí)世界。這是在加州大學(xué)柏克萊分校(UCB),有人在操控機(jī)器狗行走。研究人員想法很奇特,這場(chǎng)景看起來(lái)就像《黑鏡》里的情節(jié)。

實(shí)際上,這被稱(chēng)為「尤里卡博士」 項(xiàng)目。有個(gè)研究人員讓他的機(jī)器狗站在瑜珈球上,至少現(xiàn)在在機(jī)器狗的靈活性方面取得了很大進(jìn)展,不過(guò)真正的狗可做不到。接下來(lái),也可以將這種方法應(yīng)用到更復(fù)雜的機(jī)器人上,例如人形機(jī)器人。

這些人形機(jī)器人通過(guò)2小時(shí)的模擬訓(xùn)練,就掌握了相當(dāng)于現(xiàn)實(shí)中10年才能學(xué)會(huì)的行走技能,并且可以將訓(xùn)練成果應(yīng)用到現(xiàn)實(shí)中。無(wú)論機(jī)器人的形態(tài)如何,只要有機(jī)器人模型,進(jìn)行模擬訓(xùn)練,就可以讓它學(xué)會(huì)行走。

能做的不只行走,對(duì)吧?當(dāng)控制身體時(shí),可以追蹤任何想要追蹤的點(diǎn)、任何關(guān)鍵部位,并跟隨任何想要的速度向量。這就是人形機(jī)器人的全身控制問(wèn)題。

這非常困難,但可以通過(guò)并行運(yùn)行10,000個(gè)模擬環(huán)境來(lái)進(jìn)行訓(xùn)練。將訓(xùn)練成果零樣本、無(wú)需微調(diào)地應(yīng)用到現(xiàn)實(shí)機(jī)器人上,這是在NVIDIA實(shí)驗(yàn)室。實(shí)際上,需要放慢影片播放速度。

第一個(gè)影片是即時(shí)播放的,下一個(gè)影片是放慢后的??梢钥吹綑C(jī)器人動(dòng)作的復(fù)雜性,它在保持平衡的同時(shí)做出類(lèi)似人類(lèi)的敏捷動(dòng)作。猜猜完成這些動(dòng)作需要多大規(guī)模的神經(jīng)網(wǎng)絡(luò)?

只需要150萬(wàn)個(gè)參數(shù),不是幾十億,150萬(wàn)個(gè)參數(shù)就足以捕捉人體的潛意識(shí)處理過(guò)程。這個(gè)系統(tǒng)的推理過(guò)程,150萬(wàn)個(gè)參數(shù)就夠了。如果將其放在速度與模擬多樣性的圖表中,我認(rèn)為這可以稱(chēng)為「模擬1.0」,也就是數(shù)位孿生范式,它使用經(jīng)典的向量化物理引擎。

然后可以將模擬速度提升到每秒1萬(wàn)到100萬(wàn)幀。但問(wèn)題是,必須創(chuàng)造數(shù)位孿生體,需要有人建造機(jī)器人、建造環(huán)境等等。這非常繁瑣,而且需要大量手工操作。

能不能開(kāi)始產(chǎn)生模擬的部分內(nèi)容呢?所有這些3D資源都是由3D生成模型生成的,所有的紋理來(lái)自Stable Diffusion 或其他擴(kuò)散模型,所有的場(chǎng)景布局由提示詞和語(yǔ)言模型生成,再編寫(xiě)XML將它們整合在一起,構(gòu)建了一個(gè)名為「Robot-CASa」 的框架,這是一個(gè)大規(guī)模的合成模擬框架。

它用于模擬日常任務(wù),除了機(jī)器人,其他內(nèi)容都是生成的??梢越M合不同的場(chǎng)景,它仍然依賴(lài)經(jīng)典引擎運(yùn)行,但已經(jīng)可以完成許多任務(wù)。

現(xiàn)在,可以再次讓人進(jìn)行遠(yuǎn)端操作,但這次是在模擬環(huán)境中,而不是在現(xiàn)實(shí)機(jī)器人上。在模擬環(huán)境中重現(xiàn)操作軌跡,并加入強(qiáng)大的硬件加速光線追蹤技術(shù),讓模擬場(chǎng)景更加逼真。

甚至可以改變動(dòng)作。例如在遠(yuǎn)端操作時(shí)將杯子從這里移動(dòng)到那里,不需要反復(fù)示范同樣的動(dòng)作。綜合這些,在模擬環(huán)境中進(jìn)行一次人類(lèi)演示,通過(guò)環(huán)境生成和動(dòng)作生成,將數(shù)據(jù)量擴(kuò)展n倍,再乘以n倍。我保證這是今天需要接觸的唯一數(shù)學(xué)計(jì)算。這就是擴(kuò)充數(shù)據(jù)的方法。第一列和第三列是現(xiàn)實(shí)機(jī)器人的真實(shí)視頻,第二列到第四列是Robot-CASa模擬生成的視頻。

仍然可以看出這些紋理不是真實(shí)的,但已經(jīng)足夠接近了。把這種夠接近的情況稱(chēng)為什么呢?稱(chēng)為「數(shù)位表親」 范式。它不是數(shù)位孿生體,但在一定程度上捕捉到了相似性。這個(gè)數(shù)位表親模擬運(yùn)行速度較慢,但它是一種混合生成實(shí)體引擎,產(chǎn)生部分內(nèi)容,然后將其余部分交給經(jīng)典圖形管道處理。

現(xiàn)在,模擬包含軟件、流體等各種元素的場(chǎng)景,對(duì)于藝術(shù)家或圖形工程師來(lái)說(shuō),要正確模擬這樣的場(chǎng)景需要很長(zhǎng)時(shí)間??纯磮D形技術(shù)的發(fā)展歷程,從早期到現(xiàn)在花了30年。

而視訊聯(lián)合模型只花了1年時(shí)間,就實(shí)現(xiàn)了從模擬簡(jiǎn)單物體到模擬可變形物體(例如面條)的跨越。這里可能少了點(diǎn)趣味性,但這是我愿意付出的代價(jià)。對(duì)于最新的Sora等策略模型,也只花了1年時(shí)間,這就是規(guī)模擴(kuò)展和數(shù)據(jù)驅(qū)動(dòng)過(guò)程的力量。

還記得一開(kāi)始給你們看的影片嗎?這個(gè)影片里沒(méi)有一個(gè)真實(shí)像素,它完全是由定制化模型產(chǎn)生的。使用通用的開(kāi)源VR影片生成模型,在現(xiàn)實(shí)機(jī)器人實(shí)驗(yàn)室收集的領(lǐng)域數(shù)據(jù)上進(jìn)行微調(diào),然后產(chǎn)生了這些內(nèi)容。現(xiàn)在,可以通過(guò)提示詞讓模型想像不同的未來(lái)場(chǎng)景,模擬反事實(shí)情況。看,這兩幀畫(huà)面原本完全相同,但根據(jù)不同的語(yǔ)言提示,生成的影片會(huì)做出正確的反應(yīng)。

即使這些動(dòng)作在現(xiàn)實(shí)世界中從未發(fā)生過(guò),也能實(shí)現(xiàn)。視訊擴(kuò)散模型并不在乎場(chǎng)景有多復(fù)雜,也不在乎是否有流體或軟件。

同樣地,可以讓它拿起不同的東西,它會(huì)用正確的手抓取物體并放入籃子里。這些都是生成的,沒(méi)有一個(gè)像素是真的。它還能正確模擬出各種反射效果,對(duì)吧?

所有這些交互效果都能正確模擬。我最喜歡的一個(gè)場(chǎng)景是機(jī)器人在那邊彈尤克里里?;旧希捌P涂赡芸催^(guò)數(shù)百萬(wàn)人類(lèi)彈尤克里里的畫(huà)面,然后它就能模擬機(jī)器人的手指做出相應(yīng)動(dòng)作,即使硬件實(shí)際上并不支援。影片生成模型就能做到這一點(diǎn)。從這個(gè)角度來(lái)看,這就是「模擬2.0」。

它具有很高的多樣性,但目前運(yùn)行速度可能較慢。沒(méi)人給它起名字,但我叫它「數(shù)位游牧民族」,它就像是在視頻擴(kuò)散模型的夢(mèng)幻空間里漫游。

什么是視訊擴(kuò)散模型呢?它就像是將數(shù)億個(gè)網(wǎng)絡(luò)影片壓縮成一個(gè)多元宇宙的模擬場(chǎng)景。很神奇,對(duì)吧?在這個(gè)夢(mèng)幻空間里創(chuàng)建機(jī)器人,機(jī)器人現(xiàn)在可以與任何地方的物體進(jìn)行交互,無(wú)處不在,無(wú)所不能。

詹森之前離開(kāi)了,但我覺(jué)得他會(huì)很喜歡這個(gè)。要擴(kuò)展經(jīng)典模擬,需要大量的運(yùn)算資源,這也是1.x系列的情況。問(wèn)題是,隨著規(guī)模的擴(kuò)大,它會(huì)遇到瓶頸,因?yàn)槭止ぶ谱鞯南到y(tǒng)在多樣性方面有限制。

而神經(jīng)世界模型,也就是模擬2.0,將隨著運(yùn)算資源呈指數(shù)級(jí)擴(kuò)展。這就是神經(jīng)網(wǎng)絡(luò)超越經(jīng)典圖形工程師的地方。兩者相加,將成為擴(kuò)展下一代機(jī)器人系統(tǒng)的「核能」。

那些一開(kāi)始就說(shuō)電腦狀況會(huì)改善而不是惡化的人,把這句話(huà)刻在視網(wǎng)膜上,再好好想想吧。把所有這些數(shù)據(jù)輸入到所說(shuō)的視覺(jué)語(yǔ)言動(dòng)作模型中,這個(gè)模型輸入像素和指令,輸出馬達(dá)控制訊號(hào)。

在3月NVIDIA GTC大會(huì)約翰遜(Johnson)的主題演講中開(kāi)源了一個(gè)名為Groot的模型。在機(jī)器人上運(yùn)行這個(gè)模型,有時(shí)候會(huì)有很神奇的效果。無(wú)法想像在訓(xùn)練過(guò)程中清理了多少數(shù)據(jù)。它能夠完美地拿起香檳,做得非常好。

它還能完成一些工業(yè)任務(wù),例如拿起工廠里的物品,也能實(shí)現(xiàn)多機(jī)器人協(xié)作。 Groot模型是完全開(kāi)源的,實(shí)際上,未來(lái)的一系列模型也將開(kāi)源,因?yàn)樽裱s翰遜的開(kāi)源理念,致力于讓實(shí)體人工智能更加普及。

那么接下來(lái)呢?在看到實(shí)體人工智能的發(fā)展后,下一步是什么?我認(rèn)為是物理API??v觀人類(lèi)歷史,5000年來(lái),我們擁有了更好的工具,社會(huì)也在整體上有了很大進(jìn)展。但做晚餐以及進(jìn)行許多手工勞動(dòng)的方式,從埃及時(shí)代到現(xiàn)在,或多或少都沒(méi)有太大變化。

在人類(lèi)歷史的99%時(shí)間里,一直遵循這樣的模式:從原料出發(fā),通過(guò)人類(lèi)勞動(dòng)建構(gòu)文明。而在過(guò)去的1%,也就是大約50年里,人類(lèi)勞動(dòng)占比逐漸減少,出現(xiàn)了高度專(zhuān)業(yè)化、高度復(fù)雜的機(jī)器人系統(tǒng),它們一次只能完成一項(xiàng)任務(wù)。

程序設(shè)計(jì)成本非常高,但它們?nèi)匀辉谏鐣?huì)中發(fā)揮作用。這就是現(xiàn)狀。未來(lái)是要把代表機(jī)器人勞動(dòng)占比的區(qū)域擴(kuò)展到各個(gè)領(lǐng)域,就像語(yǔ)言模型API(LLM API)處理數(shù)位和位元一樣,物理API將處理原子。

基本上可以給軟件配備實(shí)體執(zhí)行器,讓它改變物理世界。在實(shí)體API之上,將會(huì)出現(xiàn)新的經(jīng)濟(jì)模式和新的范式,例如實(shí)體提示。如何指令這些機(jī)器人?如何訓(xùn)練它們?

有時(shí)候語(yǔ)言是不夠的。還會(huì)有實(shí)體應(yīng)用商店和技能經(jīng)濟(jì)。比如說(shuō),米其林星級(jí)廚師不必每天都去廚房,他可以訓(xùn)練機(jī)器人,然后將提供米其林星級(jí)晚餐作為一種服務(wù)。再引用一次約翰遜的話(huà):未來(lái),一切可移動(dòng)的物體都將自動(dòng)化。

有一天,回到家,會(huì)看到干凈的沙發(fā)和點(diǎn)著蠟燭的晚餐,伴侶會(huì)微笑著迎接,而不是因?yàn)闆](méi)洗衣服而大喊大叫,這每天都激勵(lì)著我。上個(gè)月買(mǎi)了兩個(gè)人形機(jī)器人,它們運(yùn)作良好。

這些機(jī)器人就像環(huán)境智能一樣融入背景,甚至不會(huì)注意到通過(guò)實(shí)體圖靈測(cè)試的那一刻。而那一天,也只會(huì)被當(dāng)作另一個(gè)普通的星期二被人們記住。

責(zé)編: 愛(ài)集微
來(lái)源:科技新報(bào) #英偉達(dá)# #圖靈測(cè)試#
THE END
愛(ài)集微

微信:

郵箱:laoyaoba@gmail.com


10.9w文章總數(shù)
12012.5w總瀏覽量
最新資訊
關(guān)閉
加載

PDF 加載中...

亚洲色欲久久久久综合网| 大屁股真人日逼视频| 精品国产Av无码久久久一区二区| 美女荒郊野外找男人靠逼| 无码中文字幕免费一区二区三区| 久久无码免费视频| 亚洲综合极品香蕉久久网| 女生的鸡鸡色色软件| AV天堂手机福利网| 国语自产免费精品视频在| 日本免费精品一区二区三区四区| 欧美日韩一区精品一区精品| 骚穴 操我 视频| 国产 欧美 日韩 黄片| 最是人间烟火色在线播放| 美女被操的流水AV| 欧美真人性爱视频| 大黑屌爆操日本女人| 韩国无玛黄片毛片| 国产妇女乱一性一交| 国产高清第一区第二区第一页| 操逼操的翻白眼视频| 日韩精品高清在线| 亚洲另类激情在线观看| 瓯美在线免费视频笫一区第二区| 黑人大屌大战中国女| 精品久久久久久不卡亚洲| 在线免费看污视频| 日韩成人伦理片在线观看| 男人透女人视频短篇| 青青河边草直播免费观看| 内射后入在线观看一区| 美国毛片亚洲社区成人看| 国产精品人妇一区二区三区| 久久久久人妻一区精品加勒比| 日本最新免费不卡一区二区三区| 操女人大逼视频下载| 久久精品小视频/| 人人妻人人澡精品99| 精品人妻一区二区三区日产乱码| 男人的天堂久久久久久久|