陳永偉/文 幾天前,洛杉磯街頭發(fā)生了一起車禍。一輛Waymo公司的Robotaxi無人出租車在經(jīng)過一個十字路口時,突然遇到一位迎面駛來的“行人”。盡管Robotaxi緊急剎車,但由于慣性作用,仍以每小時4英里(約合6.4公里)的速度撞上了“行人”。
又一起無人車事故!然而,神奇的一幕發(fā)生了:被撞的“行人”與車輛僵持了幾秒后,竟直接繞過Robotaxi,離開了事故現(xiàn)場。當(dāng)這位“受害者”繞出鏡頭死角,再次完整地出現(xiàn)在人們面前時,大家驚訝地發(fā)現(xiàn),這位“行人”根本不是人,而是一臺正在配送外賣的機器人。原來,這不僅是一場無人車事故,更是一場無人車撞機器人事故。
雖然這場交通事故沒有造成嚴(yán)重后果,但作為世界上首次肇事者和受害者都不是人的交通事故,它具有重要的標(biāo)志性意義。
近幾年,科技的發(fā)展和普及日新月異。在ChatGPT橫空出世之前,若有人說AI不僅可以像真人一樣無障礙交流,還能幫人寫文章、畫漫畫、制作視頻,甚至編程、解數(shù)學(xué)題,恐怕大多數(shù)人會覺得這是科幻小說或異想天開。而僅僅兩年后,人們已經(jīng)對類似的AI大模型習(xí)以為常,見怪不怪了。根據(jù)最新研究,在許多任務(wù)上,AI的能力已接近甚至超過了人類。
如今,人們已不再滿足于讓AI擁有“超級大腦”,更致力于為其賦予實體形態(tài),“具身智能”(Embodied Inteligence)由此成為人工智能領(lǐng)域的一個熱點方向。
那么,具身智能技術(shù)是如何發(fā)展的?它的興起將帶來哪些新的機遇和挑戰(zhàn)?關(guān)于這一切,且讓我們慢慢說來。
具身智能發(fā)展簡史
靈魂與身體的關(guān)系在過去主要是哲學(xué)家的討論話題。然而,隨著人工智能的出現(xiàn),這一哲學(xué)問題成為了科學(xué)問題。1956年的達(dá)特茅斯會議被認(rèn)為是人工智能學(xué)科的起點。
在會上,學(xué)者們試圖通過計算機模擬和理解人類智能。他們普遍認(rèn)為,智能來源于大腦或計算系統(tǒng)的內(nèi)部結(jié)構(gòu)與機制,而認(rèn)知和思維可以通過計算、推理和信息處理實現(xiàn)。這種觀點契合笛卡爾的靈魂獨立性理論,被稱為“內(nèi)在主義”。內(nèi)在主義的核心流派是符號主義,主張智能可以通過形式化的符號系統(tǒng)來模擬,通過邏輯推理處理符號來完成復(fù)雜任務(wù)。
盡管內(nèi)在主義在人工智能發(fā)展的初期占據(jù)主流,但也有另一批學(xué)者從不同的角度進(jìn)行實踐。他們關(guān)注機械如何像人一樣感知和行動,理論基礎(chǔ)源于控制論。他們試圖創(chuàng)造依照物理法則運行的“身體”,這逐漸發(fā)展為機器人學(xué)。最初,內(nèi)在主義與控制論是兩條平行發(fā)展的研究領(lǐng)域。內(nèi)在主義專注于“靈魂”,而控制論聚焦于“身體”。
然而,20世紀(jì)80年代,局勢發(fā)生了變化。盡管符號主義在語言理解和專家系統(tǒng)等領(lǐng)域取得了一些突破,但其進(jìn)展開始變得緩慢,許多學(xué)者對符號主義能否實現(xiàn)人工智能產(chǎn)生懷疑。而與此同時,機器人學(xué)的進(jìn)展卻非常顯著。尤其是日本早稻田大學(xué)的研究團隊為機器人安裝攝像頭和傳感器,使其擁有視覺、聽覺和觸覺,并能夠根據(jù)環(huán)境調(diào)整行為。原本只關(guān)注“身體”的研究者,開始讓“身體”擁有“靈魂”的特質(zhì)。
在這樣的背景下,一些學(xué)者開始質(zhì)疑笛卡爾的觀點,轉(zhuǎn)而支持亞里士多德的身心合一論。他們認(rèn)為,智能應(yīng)從靈魂與身體結(jié)合的角度研究。喬治·萊考夫、馬克·約翰遜、洪貝爾托·梅圖拉納、弗朗西斯科·瓦雷拉、羅德尼·布魯克斯和詹姆斯·吉布森等人主張從這一角度重新思考智能問題,“具身智能”由此誕生為一個正式研究領(lǐng)域。
在20世紀(jì)80年代,“具身智能”領(lǐng)域曾經(jīng)風(fēng)光一時。在這一時期,該領(lǐng)域涌現(xiàn)出了一批重要的理論成就。1980年,萊考夫和約翰遜發(fā)表了《我們賴以生存的隱喻》(MetaphorsWeLiveBy),提出了具身認(rèn)知(EmbodiedCog-nition)理論。這一理論強調(diào),認(rèn)知不僅依賴于大腦,還與身體的感覺和動作密切相關(guān),從理論層面對內(nèi)在主義提出了挑戰(zhàn)。在此基礎(chǔ)上,吉布森提出了“生態(tài)學(xué)知覺”(EcologicalPerception)理論。他認(rèn)為,感知是個體直接從環(huán)境中提取信息的過程,而不是通過內(nèi)部符號化或推理的間接過程,其本質(zhì)是對環(huán)境的嵌入性。當(dāng)人們感知到環(huán)境后,會根據(jù)“機會場”(Affordances)調(diào)整行為。例如,人們看到一張椅子,就會感知到可以坐的機會,然后再做出坐下的動作。機會場的感知是動態(tài)的,不同環(huán)境下,人們可能從同一事物中感受到不同的機會場,并做出不同的決策。根據(jù)吉布森的理論,行為并非僅由大腦思維驅(qū)動,而是一個由感知發(fā)動、與環(huán)境互動的復(fù)雜過程,身體的參與必不可少。
在實踐領(lǐng)域,具身智能的最大成就是布魯克斯的“行為型機器人”(Behav-ior-basedRobotics)。與符號主義者預(yù)先設(shè)計符號規(guī)則系統(tǒng)以形成決策、控制機器的方式不同,行為型機器人不依賴內(nèi)部符號推理,而是通過感知與運動的行為層次進(jìn)行控制。布魯克斯僅為這些機器人設(shè)置了一些簡單規(guī)則,如“遇到障礙應(yīng)繞行”,這些機器人便能通過與環(huán)境的互動完成許多復(fù)雜任務(wù)。相比當(dāng)時停滯不前的內(nèi)在主義,具身智能領(lǐng)域可謂風(fēng)景獨好,儼然有成為人工智能主流之勢。
然而,具身智能的風(fēng)光并未持續(xù)很久。這主要有兩方面原因。一是當(dāng)時的具身智能過于側(cè)重感知等低級智能行為,而對思維等高級智能活動涉及較少,這對關(guān)注人類思維的人工智能專家來說難以接受。二是受限于當(dāng)時的算力,行為型機器人難以進(jìn)一步完成更復(fù)雜的任務(wù)。在這種情況下,一些機器人專家重新回歸對算力需求較少的符號主義,而另一些專家則轉(zhuǎn)向復(fù)雜推理、規(guī)劃算法和建模技術(shù),試圖找到新的解決方案。在這一背景下,具身智能技術(shù)路線在20世紀(jì)90年代陷入低谷。
進(jìn)入21世紀(jì)后,受多方面因素推動,具身智能重新成為關(guān)注焦點。首先,認(rèn)知科學(xué)和神經(jīng)科學(xué)的進(jìn)步使人們逐步認(rèn)識到身體與感知、行為之間確實存在著亞里士多德所說的那種密不可分的關(guān)系。尤其是賈科莫·里佐拉提對鏡像神經(jīng)元(mirrorneurons)的研究表明,人們對他人活動的理解和認(rèn)識實際上是通過身體反應(yīng)實現(xiàn)的,這為具身智能理論提供了有力的經(jīng)驗證據(jù)。其次,機器學(xué)習(xí)領(lǐng)域的突破為具身智能提供了許多新工具。深度學(xué)習(xí)(DeepLearning)的發(fā)展讓機器人擁有了更強的“視覺”,可以更好地與環(huán)境互動;強化學(xué)習(xí)則顯著提高了機器人的訓(xùn)練效率。再次,計算能力和硬件技術(shù)的飛躍為具身智能的復(fù)興提供了堅實基礎(chǔ)。處理能力、存儲能力和傳感器技術(shù)的提升,使得實時感知、運動控制和反饋循環(huán)等任務(wù)變得更可行。最后,大量的社會需求也推動了具身智能的發(fā)展。21世紀(jì)以來,人們對生產(chǎn)和生活自動化的要求不斷提升,工業(yè)機器人和無人車等領(lǐng)域備受追捧,而這些領(lǐng)域?qū)θ斯ぶ悄芘c硬件的結(jié)合有著極高的要求,從而進(jìn)一步推動了具身智能的發(fā)展。在上述一系列因素的共同作用下,沉寂十多年的具身智能終于再次成為顯學(xué)。
值得注意的是,這一輪具身智能的興盛與20世紀(jì)80年代那一輪具身智能的風(fēng)光有很大不同。當(dāng)時,具身智能主要作為內(nèi)在主義,尤其是符號主義的反對者而存在,兩者之間是競爭關(guān)系。而這一輪,由于深度學(xué)習(xí)成為內(nèi)在主義主流,同時又成為具身智能的重要基礎(chǔ),內(nèi)在主義與具身智能之間的壁壘被打破,二者的關(guān)系從沖突轉(zhuǎn)向合作。在實踐層面,二者也實現(xiàn)了“雙向奔赴”。人工智能公司在大模型領(lǐng)域取得突破后,迅速推進(jìn)大模型的多模態(tài)化,讓智能體學(xué)會“看”“聽”“說”;機器人制造商在協(xié)調(diào)機械關(guān)節(jié)和軀體之后,也嘗試將其接入GPT等大模型,使機器人擁有更智能的交互能力。在這種跨領(lǐng)域合作下,具身智能的發(fā)展前景前所未有的廣闊。可以預(yù)見,不久的將來,具身智能體將越來越多地出現(xiàn)在我們的生活中。
具身智能帶來的機遇
盡管生成式人工智能以及由其衍生的AI智能體已經(jīng)在相當(dāng)程度上改變了生產(chǎn)和生活的格局,但與具身智能可能帶來的改變相比,這些仍然顯得微不足道。目前的AI智能體雖然可以實現(xiàn)許多交互功能,但這些交互大多停留在非物理層面。因此,它們與人類的互動始終存在局限性,難以實現(xiàn)自然和直觀的協(xié)作。例如,當(dāng)GPT被用來輔導(dǎo)小孩做數(shù)學(xué)題時,用戶需要先將題目掃描并上傳,然后讀取GPT生成的文字輸出,而無法像老師一樣手把手教導(dǎo)孩子。這種不自然的交互方式在很大程度上削弱了其能力。此外,許多任務(wù),尤其是與體力相關(guān)的任務(wù),仍然需要有形的身體來完成。即使GPT能夠詳細(xì)說明如何照料老人,我們也無法指望它承擔(dān)養(yǎng)老職責(zé)。具身智能的興起為解決這些問題帶來了希望。
在智能制造領(lǐng)域,具身智能的價值主要體現(xiàn)在三個方面:
首先,具身智能可以大幅度提升自動化水平。雖然在現(xiàn)階段,自動化流水線已經(jīng)得到了廣泛的應(yīng)用,但它們主要依賴固定的程序和流程,只能執(zhí)行固定任務(wù),不能根據(jù)環(huán)境變化進(jìn)行實時調(diào)整。以汽車裝配為例,如果傳輸帶上的零件出現(xiàn)了缺陷或者其型號與預(yù)定不符,那么自動化流水線將可能難以處理,甚至因此而發(fā)生事故。相比之下,具身智能作為一個自適應(yīng)系統(tǒng),則可以較好地處理類似的問題。當(dāng)發(fā)現(xiàn)零件異常時,它們會主動把這些異常零件挑揀出來,以保證流水線的順利進(jìn)行。這樣,整個流水線的故障率就可以大幅降低,其安全性將得到有效的提升。
其次,具身智能可以很好地支持“柔性化生產(chǎn)”(FlexibleManufactur-ing)。所謂“柔性化生產(chǎn)”,通俗來說,就是多品種、小批量的生產(chǎn)方式。隨著消費者需求的多樣化,市場對個性化產(chǎn)品的需求越來越強烈,這就對制造業(yè)企業(yè)的生產(chǎn)柔性化提出了更高的要求。對于這樣的要求,只能執(zhí)行固定任務(wù)的傳統(tǒng)工業(yè)機器人將很難滿足,相比之下,具身智能則可以根據(jù)需要,很快給出對應(yīng)的解決方案?!都~約時報》記者約翰·馬可夫曾對具身智能在“柔性化生產(chǎn)”領(lǐng)域中的應(yīng)用前景做過很多討論。根據(jù)他的描述,“具身智能將實現(xiàn)定制化生產(chǎn)的普及。屆時,無論是個人化汽車,還是定制化手機,機器人都能根據(jù)客戶需求靈活調(diào)節(jié)生產(chǎn)線?!?/p>
再次,具身智能將會實現(xiàn)更高效的人機合作。現(xiàn)在,雖然AI智能體已經(jīng)可以對很多任務(wù)提供建議,但它們并不具有獨立完成任務(wù)的能力。而具身智能則不一樣,在擁有了“身體”之后,它們不僅僅是單獨執(zhí)行任務(wù)的機器,而是與工人協(xié)同工作,發(fā)揮各自的優(yōu)勢。很多專家都對具身智能在人機協(xié)同生產(chǎn)方面的潛力表達(dá)出了樂觀。比如,日本著名機器人專家石黑浩就認(rèn)為,未來工廠將成為人類與機器人密切協(xié)作的場所,機器人通過具身智能與人類工人一起完成生產(chǎn)任務(wù),發(fā)揮團隊協(xié)作的優(yōu)勢。他在一次TED講座中講道:“具身智能不僅僅是讓機器人完成任務(wù),它們還將與工人協(xié)作,形成團隊優(yōu)勢,提高整體生產(chǎn)力。通過分工,機器人可以處理重復(fù)性高、危險性大的任務(wù),而人類工人則專注于創(chuàng)造性和決策性較強的工作。這就能讓生產(chǎn)的效率得到巨大的提升?!?/p>
在數(shù)字服務(wù)領(lǐng)域,具身智能也將帶來顛覆性變化。服務(wù)行業(yè)曾被認(rèn)為是AI智能體難以介入的領(lǐng)域,但這一狀況正在改變。
養(yǎng)老和健康護理是具身智能的重要應(yīng)用場景之一。隨著出生率下降和人均壽命延長,全球老齡化問題日益嚴(yán)峻。照料老年人不僅需要專業(yè)技能,還對體力和精力提出了較高要求,雇傭?qū)I(yè)人士的成本往往超出普通家庭的承受范圍。在北京,雇傭一位全職保姆的工資約在6000元到10000元之間,還需提供食宿。由于成本限制,許多老人只能依賴子女的有限照顧。然而,子女因工作繁忙,能夠陪伴父母的時間極為有限,這使得養(yǎng)老行業(yè)出現(xiàn)了巨大的需求缺口。具身智能可以在一定程度上緩解這一問題。
當(dāng)前,許多機器人公司已經(jīng)開發(fā)出專門的養(yǎng)老機器人,這些機器人能夠提供全天候看護、健康監(jiān)測、情感陪伴和緊急響應(yīng)功能。通過聯(lián)網(wǎng),它們還能幫助醫(yī)生實時監(jiān)控患者的健康狀況,并在醫(yī)生指導(dǎo)下提供健康服務(wù)。這種技術(shù)能夠分擔(dān)部分養(yǎng)老責(zé)任,未來,隨著技術(shù)的進(jìn)一步發(fā)展,養(yǎng)老機器人將能承擔(dān)更多重體力任務(wù),成為養(yǎng)老隊伍中的重要力量。
教育培訓(xùn)是另一個重要應(yīng)用場景。知識和技能的傳遞需要師生間的互動,而非簡單的數(shù)據(jù)輸入輸出。盡管AI智能體儲備了海量知識,但其當(dāng)前的交互模式限制了其在教育中的應(yīng)用潛力。成年用戶或許可以通過與ChatGPT對話自學(xué)知識,但對于兒童而言,坐在電腦前通過聊天學(xué)習(xí)的吸引力較低。元宇宙曾被寄予厚望,但由于虛擬現(xiàn)實技術(shù)的發(fā)展受限,交互性不足的問題始終未能得到有效解決。而具身智能的出現(xiàn)為這一領(lǐng)域帶來了新希望。已有的教育機器人能夠通過內(nèi)置的大模型與學(xué)生互動,回答問題并引導(dǎo)學(xué)習(xí)進(jìn)度。實踐證明,學(xué)生對這類機器教師較為接受,互動性良好。隨著技術(shù)的進(jìn)一步改進(jìn),未來每個家庭可能都能為孩子配備一位機器人教師。
具身智能的潛在應(yīng)用場景極其廣泛,因此其經(jīng)濟潛力備受關(guān)注。麥肯錫估計,到2030年,全球約有4億個崗位將采用自動化機器人,若人形機器人的滲透率達(dá)到20%,以單價15萬元至20萬元計,全球人形機器人市場規(guī)模可達(dá)12萬億元至16萬億元。而人形機器人僅是具身智能的一種形式,若考慮無人車、無人機及其他異形機器人的潛力,市場總值可能高達(dá)數(shù)十萬億元。
具身智能發(fā)展的挑戰(zhàn)
隨著具身智能概念的熱度不斷攀升,越來越多的創(chuàng)業(yè)者投身這一賽道,許多地方政府也競相推出支持政策。這些趨勢固然值得肯定。然而,作為技術(shù)的理性樂觀派,我們在面對這項技術(shù)的火熱發(fā)展時,必須正視其發(fā)展中存在的障礙及可能帶來的問題。
一個顯而易見的挑戰(zhàn)是技術(shù)瓶頸問題。盡管經(jīng)過數(shù)十年的發(fā)展,具身智能領(lǐng)域已積累了較為豐富的技術(shù)儲備,尤其是在吸收深度學(xué)習(xí)和強化學(xué)習(xí)技術(shù)后,許多原本的技術(shù)難關(guān)得到了突破。然而,當(dāng)前仍存在以下關(guān)鍵難點:
一是感知能力的提升尚有不足。盡管視覺、聽覺和觸覺傳感器技術(shù)不斷進(jìn)步,要讓機器人像人類一樣準(zhǔn)確感知復(fù)雜環(huán)境并識別動態(tài)目標(biāo)和環(huán)境變化,仍是一個巨大的技術(shù)挑戰(zhàn)。例如,機器人在處理復(fù)雜的交通場景或社交場景時,可能會出現(xiàn)誤判或反應(yīng)遲鈍。
二是環(huán)境適應(yīng)與學(xué)習(xí)能力的限制。目前,大多數(shù)具身智能系統(tǒng)只能在實驗室或工廠車間等結(jié)構(gòu)化環(huán)境中運行,而在開放、無序的環(huán)境中,機器人仍難以高效適應(yīng)。在復(fù)雜任務(wù)的學(xué)習(xí)能力上,短板更為明顯。
三是多模態(tài)協(xié)同的挑戰(zhàn)。具身智能需要整合視覺、聽覺等多種感知通道,并協(xié)同處理相關(guān)數(shù)據(jù)。雖然多模態(tài)技術(shù)得益于大模型的發(fā)展取得了一定進(jìn)展,但要進(jìn)一步整合空間和行為數(shù)據(jù),仍面臨算法優(yōu)化和硬件支持的雙重挑戰(zhàn)。在這種情況下,要讓具身智能真正走入家庭,承擔(dān)養(yǎng)老、教育等急需的任務(wù),恐怕還有很長的路要走。
需要注意的是,技術(shù)與需求之間可能存在“低均衡”問題。在現(xiàn)有技術(shù)條件下,具身智能最有潛力的應(yīng)用場景難以實現(xiàn),這使消費者對其需求不足,進(jìn)而導(dǎo)致企業(yè)難以獲得改進(jìn)技術(shù)所需的數(shù)據(jù)支持。如果這一循環(huán)得不到突破,具身智能的發(fā)展可能陷入停滯。
另一個重要問題是數(shù)據(jù)隱私與安全問題。與當(dāng)前AI智能體的“虛擬交流”不同,人們與具身智能的互動是面對面的。隨著具身智能在日常生活中的普及,我們的行為數(shù)據(jù)將被智能體記錄,其中可能包括許多敏感信息,如健康數(shù)據(jù)、位置信息和行為習(xí)慣。這對隱私保護提出了更高的要求。此外,具身智能的廣泛應(yīng)用也意味著其系統(tǒng)可能成為攻擊目標(biāo)。惡意軟件或其他方式的攻擊可能影響機器人的判斷和行為,從而帶來物理上的安全隱患。由于具身智能具有實體,其可能造成的傷害比現(xiàn)有AI智能體更為嚴(yán)重。如果這些問題不能妥善解決,具身智能的應(yīng)用和推廣將面臨巨大的阻力。
從社會和倫理角度看,具身智能的普及還涉及一系列深層次的問題。具身智能的普及不僅僅是技術(shù)問題,還涉及社會和倫理層面。
一方面,具身智能可能對勞動力市場造成沖擊。隨著其應(yīng)用范圍的擴大,大量就業(yè)崗位可能因此流失,進(jìn)而引發(fā)失業(yè)和收入分配不均等問題。另一方面,具身智能在決策時需要遵循特定的倫理規(guī)范。例如,在健康護理領(lǐng)域,機器人需要判斷何時干預(yù)或不干預(yù),而這些決策是否符合倫理標(biāo)準(zhǔn),以及如何制定規(guī)則確保其行為符合社會道德,仍是重要的挑戰(zhàn)。此外,隨著具身智能逐步融入日常生活,人類與機器之間的關(guān)系也變得更加復(fù)雜。人類是否會對智能體產(chǎn)生依賴,甚至影響社會行為與情感,這些都是需要深入研究的問題。如果這些問題得不到有效回應(yīng),社會對具身智能的接受度將受到很大影響。
第四是法律與監(jiān)管框架的不完善。目前,全球范圍內(nèi)針對具身智能的法律和監(jiān)管仍處于探索階段。例如,在無人車與機器人的交通事故中,如何歸責(zé)?機器人對個人數(shù)據(jù)的使用應(yīng)如何規(guī)范?這些問題尚無明確答案。這種法律上的空白為行業(yè)發(fā)展帶來了不確定性。
各國目前都在加快對具身智能立法的研究,但如何在實踐與規(guī)范之間取得平衡仍存在爭議。法律是否應(yīng)超前制定以應(yīng)對潛在問題,還是“讓子彈飛一會兒”,也有不同觀點。如何在技術(shù)發(fā)展與規(guī)范之間找到微妙的平衡,仍需進(jìn)一步探討。
總而言之,盡管具身智能展現(xiàn)出了巨大的潛力,其發(fā)展仍面臨諸多障礙。從技術(shù)瓶頸到隱私安全,從社會倫理到法律規(guī)制,要全面擁抱具身智能,仍需要更多的準(zhǔn)備與努力。
?