機(jī)械臂與靈巧手在虛擬環(huán)境和真實(shí)世界中進(jìn)行訓(xùn)練與測(cè)試。受訪者供圖
仿生靈巧手轉(zhuǎn)動(dòng)骰子示意圖。受訪者供圖
凌晨4點(diǎn),耿逸然和安博施的鬧鐘同時(shí)響起。一個(gè)小時(shí)后,第36屆神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS 2022)即將開(kāi)始,作為大會(huì)中MyoChallenge挑戰(zhàn)賽骰子重定向(Die Reorientation)賽道冠軍,這兩位來(lái)自北京大學(xué)信息科學(xué)技術(shù)學(xué)院2020級(jí)圖靈班的大三學(xué)生,即將迎來(lái)各自人生中首次在國(guó)際頂級(jí)會(huì)議上的亮相。
“還是很激動(dòng)和緊張的?!?022年12月,該會(huì)議在美國(guó)舉辦。北京時(shí)間清晨5點(diǎn),耿逸然和安博施線上參會(huì),在15分鐘的全英文報(bào)告中,他們對(duì)參賽方案的完整闡釋,將來(lái)自世界各地的聽(tīng)眾帶回2022年的夏天。
去年8月,兩人在導(dǎo)師的推薦下了解到,NeurIPS推出了一項(xiàng)比賽,要求參賽者設(shè)計(jì)一套人工智能算法,控制仿生靈巧手完成隨機(jī)的抓取、轉(zhuǎn)動(dòng)骰子等任務(wù),最終成功率最高、需要肌肉施加力最小的團(tuán)隊(duì)獲勝。
賽事通知讓他們立即興奮起來(lái)。兩人的導(dǎo)師、北京大學(xué)人工智能研究院助理教授、北京通用人工智能研究院研究員楊耀東和計(jì)算機(jī)學(xué)院前沿計(jì)算研究中心助理教授董豪長(zhǎng)期從事機(jī)械臂和靈巧手的人工智能與環(huán)境交互研究,在這幾位老師的指導(dǎo)下,耿逸然和安博施也一直在學(xué)習(xí),如何在這一領(lǐng)域成為訓(xùn)練人工智能的“優(yōu)秀教師”。此外,他們?cè)趨R集頂級(jí)人工智能專家的北京通用人工智能研究院長(zhǎng)期與許多優(yōu)秀研究員共同工作,積累了很多寶貴經(jīng)驗(yàn)。用國(guó)際頂級(jí)人工智能會(huì)議的大賽檢驗(yàn)自己,既是絕佳的練兵機(jī)會(huì),也是展示學(xué)習(xí)所得的機(jī)會(huì)。
比賽發(fā)令槍響,耿逸然和安博施的“全速奔跑”開(kāi)始了。和他們一起合作的,還有同樣來(lái)自北京通用人工智能研究院的大學(xué)生鐘伊凡、吉嘉銘、陳源培等。盡管他們對(duì)機(jī)械臂的人工智能控制已經(jīng)相對(duì)熟悉,但這次比賽中要面對(duì)的,是一只截然不同的“虛擬仿生手”。在電腦屏幕上的模擬器中,這只手“有血有肉”,銀灰色的手部骨骼外,覆蓋著由紅色線條表示的一束束肌肉,如同真正的手一樣,各個(gè)關(guān)節(jié)和每條肌肉密切聯(lián)動(dòng),“牽一發(fā)而動(dòng)全身”,和常見(jiàn)的只能控制每個(gè)獨(dú)立關(guān)節(jié)的實(shí)體機(jī)械手相比,復(fù)雜程度多了不是一點(diǎn)半點(diǎn)。
花了大約一周時(shí)間熟悉仿生靈巧手的關(guān)節(jié)與肌肉之間的關(guān)系后,他們開(kāi)始制訂培訓(xùn)這位人工智能“學(xué)生”的方案。抓取、轉(zhuǎn)動(dòng)骰子,對(duì)仿生手來(lái)說(shuō)相當(dāng)復(fù)雜,他們就將動(dòng)作拆解,如同體操教練教學(xué)員完成一套復(fù)雜的轉(zhuǎn)體、曲體組合動(dòng)作時(shí),先教各個(gè)分解動(dòng)作,再進(jìn)一步完成動(dòng)作組合。如同水族館表演的海豚,通過(guò)獎(jiǎng)勵(lì)塑造,人工智能在完成目標(biāo)動(dòng)作時(shí),一個(gè)相當(dāng)于小魚的獎(jiǎng)勵(lì)函數(shù)會(huì)對(duì)它進(jìn)行“激勵(lì)”,以促進(jìn)其更好地“學(xué)習(xí)”。
這些聽(tīng)起來(lái)簡(jiǎn)單的操作,背后是無(wú)數(shù)爭(zhēng)分奪秒的努力。電腦隨身攜帶,耿逸然有時(shí)就趁著上課前的10分鐘,打開(kāi)電腦修改代碼。每天面對(duì)黑色屏幕上一行行白色字母組成的代碼難免枯燥,但早上醒來(lái)打開(kāi)頭天晚上訓(xùn)練的模型,一個(gè)好的實(shí)驗(yàn)結(jié)果足以讓人雀躍。“這個(gè)過(guò)程就像開(kāi)盲盒?!卑膊┦┙榻B,研發(fā)的過(guò)程沒(méi)有正確答案,一切都是摸著石頭過(guò)河,“前一天訓(xùn)練了10個(gè)模型,第二天跑完數(shù)據(jù)可能有8個(gè)結(jié)果一般、1個(gè)不好、還有1個(gè)非常好。每天都很期待,會(huì)有更多好的結(jié)果?!?/p>
憑著長(zhǎng)期打下的基礎(chǔ)和比賽期間的用心,第一次上傳參賽代碼,他們就高居首位,隨著之后不斷調(diào)整方案,也一直處于領(lǐng)先。但就在接近比賽截止日期的一個(gè)凌晨4點(diǎn),從睡夢(mèng)中醒來(lái)的耿逸然突然發(fā)現(xiàn),有其他參賽者的成績(jī)超過(guò)了他們。他一下就清醒了,套上衣服就沖進(jìn)隔壁宿舍,搖醒了安博施。兩個(gè)眼睛還沒(méi)睜開(kāi)的人大腦已經(jīng)無(wú)比清醒,迅速?zèng)_出宿舍,沖進(jìn)實(shí)驗(yàn)室,緊鑼密鼓地開(kāi)始調(diào)整方案。
10月末,比賽截止。在之后公布的結(jié)果中,在全球10多個(gè)國(guó)家的40個(gè)參賽隊(duì)伍提交的340余份有效方案中,他們的方案位居榜首。
在2022年末的學(xué)術(shù)會(huì)議召開(kāi)前,耿逸然和安博施分工合作,為了他們共同的第一次英文學(xué)術(shù)報(bào)告反復(fù)推敲,擬定表述方式、寫下逐字稿、互相給對(duì)方試講,一直磨到凌晨3點(diǎn)。兩個(gè)小時(shí)后,他們的報(bào)告結(jié)束,一位來(lái)自瑞士的教授向安博施發(fā)出邀約:“你們的講述非常好,希望你可以考慮申請(qǐng)我的博士項(xiàng)目?!?/p>
2023年年初,兩位搭檔了一年多的伙伴再次合作,以共同第一作者的身份,在2023年國(guó)際機(jī)器人與自動(dòng)化大會(huì)(ICRA 2023)中,發(fā)表研究論文《基于端到端可操作性學(xué)習(xí)的機(jī)器人操縱框架》?!罢撐睦锝榻B了我們探索出的機(jī)械臂抓取物件的方法。”比起參加比賽,日常的學(xué)術(shù)研究需要更加深入的方法探索,通過(guò)他們開(kāi)發(fā)的這套方法,機(jī)械臂可以通過(guò)作用域物體的關(guān)鍵點(diǎn),如柜子的拉手、鍋蓋的抓手等,實(shí)現(xiàn)拉開(kāi)柜門、提起鍋蓋等操作。
但比賽的過(guò)程也對(duì)他們啟發(fā)頗多。“之前覺(jué)得讓靈巧手轉(zhuǎn)動(dòng)一個(gè)骰子很簡(jiǎn)單,但這次比賽中使用的仿生靈巧手模擬了真實(shí)的骨骼和肌肉關(guān)系,我們發(fā)現(xiàn)動(dòng)物的日常動(dòng)作遠(yuǎn)比機(jī)械精細(xì)的多,且不說(shuō)大腦,動(dòng)物小腦中就不知有多少我們還沒(méi)發(fā)現(xiàn)的秘密?!彼麄冎?,想讓人工智能實(shí)現(xiàn)更精細(xì)的功能,一代代計(jì)算機(jī)人還有很長(zhǎng)的路要走。
(記者 畢若旭)
北疆新聞:內(nèi)蒙古自治區(qū)重點(diǎn)新聞網(wǎng)站(客戶端),內(nèi)蒙古出版集團(tuán)新華報(bào)業(yè)中心旗下國(guó)家互聯(lián)網(wǎng)新聞信息采編發(fā)布服務(wù)一類資質(zhì)網(wǎng)站(客戶端)。
北疆新聞版權(quán)與免責(zé)聲明:
一、凡本站中注明“來(lái)源:北疆新聞”的所有文字、圖片和音視頻,版權(quán)均屬北疆新聞所有,轉(zhuǎn)載時(shí)必須注明“來(lái)源:北疆新聞”,并附上原文鏈接。
二、凡來(lái)源非北疆新聞的新聞(作品)只代表本網(wǎng)傳播該消息,并不代表贊同其觀點(diǎn)。
如因作品內(nèi)容、版權(quán)和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)谝?jiàn)網(wǎng)后30日內(nèi)進(jìn)行,聯(lián)系郵箱:bjwmaster@163.com。
版權(quán)聲明:北疆新聞版權(quán)所有,未經(jīng)書面授權(quán),不得轉(zhuǎn)載或建立鏡像,違者依法必究。 本站違法和不良信息舉報(bào)電話:15648148811蒙ICP備16001043號(hào)-1
Copyright © 2016- 北疆新聞網(wǎng) All Rights Reserved互聯(lián)網(wǎng)新聞信息服務(wù)許可證:15120200009-1蒙公網(wǎng)安備:15010502001245