科技改變生活 · 科技引領(lǐng)未來
距 NIPS 2018 召開還有不到一個(gè)月的時(shí)間,NIPS 2018 上的各種技術(shù)挑戰(zhàn)賽也接近尾聲。關(guān)于挑戰(zhàn)賽的詳細(xì)信息,請參見:距 NIPS 2018 還有小半年,會(huì)上的各種挑戰(zhàn)賽已經(jīng)開始啦
在上周結(jié)束的 2018 人工智能假肢挑戰(zhàn)賽(AI for Prosthetics Challenge)中,來自中國百度的技術(shù)團(tuán)隊(duì) Firework 一舉擊敗全球 400 多支參賽團(tuán)隊(duì),以 9980.46 的得分奪得冠軍,領(lǐng)先第二名高達(dá) 30 多分。
在此次比賽中,百度首先通過上千臺(tái)機(jī)器的 CPU 集群來加速模擬環(huán)境,利用 RPC 機(jī)制進(jìn)行機(jī)器間通信,從而能在高性能 GPU 上進(jìn)行高效的模型訓(xùn)練。
其次,利用Target Driven Deep Deterministic Policy Gradient (Target Driven DDPG),使得模型能夠應(yīng)對較大空間和連續(xù)動(dòng)作空間的挑戰(zhàn),最終也使得一個(gè)單一模型能夠?qū)W習(xí)多種速度和姿態(tài)。
第三,在算法層面,通過 multi-head bootstrapping,能夠更高效的對巨大的解空間進(jìn)行探索(Exploration),同時(shí)還將旋轉(zhuǎn)不變性等各類特征處理方式,以及不斷實(shí)驗(yàn)累計(jì)的各類 reward shaping 方法應(yīng)用其中。
正是這些關(guān)鍵技術(shù)的綜合應(yīng)用,讓百度能以 9980 的高分一舉奪冠。據(jù)悉,早在本次比賽以前,百度已經(jīng)將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于信息流推薦、廣告展現(xiàn)、搜索排序等大規(guī)模工業(yè)級(jí)場景。而本次比賽中所展現(xiàn)出的技術(shù)實(shí)力,再次證明了百度在強(qiáng)化學(xué)習(xí)相關(guān)技術(shù)上的積累也能夠進(jìn)一步推廣到復(fù)雜機(jī)器人控制、自動(dòng)駕駛等更多工業(yè)領(lǐng)域。
何陽林
版權(quán)所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務(wù)經(jīng)營許可證備案號(hào):遼ICP備14006349號(hào)
網(wǎng)站介紹 商務(wù)合作 免責(zé)聲明 - html - txt - xml