亚洲工业智能制造领域专业门户网站 - 亚洲自动化与机器人网

 
當(dāng)前位置: 首頁 » 行業(yè)資訊 » 機(jī)器人»伯克利最新無模型深度強(qiáng)化學(xué)習(xí)研究:從零開始訓(xùn)練機(jī)器人玩樂高
   

伯克利最新無模型深度強(qiáng)化學(xué)習(xí)研究:從零開始訓(xùn)練機(jī)器人玩樂高

 46.1K
     [點(diǎn)擊復(fù)制]
放大字體  縮小字體 發(fā)布日期:2018-03-29   瀏覽次數(shù):428
核心提示:現(xiàn)現(xiàn)在,經(jīng)由歷久的研討試驗(yàn)證實(shí),無模子深度強(qiáng)化進(jìn)修在視頻游戲、模仿機(jī)械人把持和活動等范疇具有優(yōu)越的機(jī)能表示。但是,盡人皆知,當(dāng)與情況的交互時(shí)光無限的情形下,無模子辦法的表示其實(shí)不佳,就像年夜多半實(shí)際世

現(xiàn)現(xiàn)在,經(jīng)由歷久的研討試驗(yàn)證實(shí),無模子深度強(qiáng)化進(jìn)修在視頻游戲、模仿機(jī)械人把持和活動等范疇具有優(yōu)越的機(jī)能表示。但是,盡人皆知,當(dāng)與情況的交互時(shí)光無限的情形下,無模子辦法的表示其實(shí)不佳,就像年夜多半實(shí)際世界中的機(jī)械人義務(wù)一樣。在本文中,我們研討了若何可以或許將應(yīng)用soft Q-learning練習(xí)的最年夜熵戰(zhàn)略運(yùn)用于實(shí)際世界中的機(jī)械人把持義務(wù)。這類辦法之所以可以或許在實(shí)際世界中的運(yùn)用重要得益于soft Q-learning的兩個(gè)主要特點(diǎn):起首,soft Q-learning可以經(jīng)由過程進(jìn)修具有表達(dá)性的基于能量的模子所表現(xiàn)的戰(zhàn)略(energy-based models),從而進(jìn)修多形式摸索戰(zhàn)略。其次,我們展現(xiàn)了經(jīng)由過程soft Q-learning所進(jìn)修的戰(zhàn)略可以構(gòu)成新戰(zhàn)略,而且終究戰(zhàn)略的最優(yōu)性可以依據(jù)組合戰(zhàn)略之間的不合來界定。這類組合性為實(shí)際世界的把持義務(wù)供給了一個(gè)特殊有價(jià)值的對象,個(gè)中,經(jīng)由過程對現(xiàn)有的技巧停止組合進(jìn)而結(jié)構(gòu)出新的戰(zhàn)略,可以在從零開端的練習(xí)中供給效力上的年夜幅進(jìn)步。我們的試驗(yàn)評價(jià)成果注解,相較于以往的無模子深度強(qiáng)化進(jìn)修辦法,soft Q-learning具有更高的樣本效力,而且可以對模仿和實(shí)際世界的義務(wù)履行組合性。

我們,應(yīng)用一種稱為soft Q-learning的最年夜熵強(qiáng)化進(jìn)修算法,對Sawyer機(jī)械人停止練習(xí)使其可以或許將樂高積木疊加在一路。從零開端對一個(gè)戰(zhàn)略停止練習(xí)須要不到兩個(gè)小時(shí)的時(shí)光,而且已進(jìn)修事物戰(zhàn)略攪擾(左圖)具有很強(qiáng)的魯棒性。我們還展現(xiàn)了該若何將學(xué)到的戰(zhàn)略組合起來構(gòu)成新的復(fù)合技巧,例如在避開樂高積木塔的情形下停止堆疊操作(右圖)。

具有表達(dá)性的通用目標(biāo)函數(shù)近似器(如神經(jīng)收集),與可用于獲得龐雜行動戰(zhàn)略的通用目標(biāo)無模子強(qiáng)化進(jìn)修算法的交集,無望完成普遍的機(jī)械人行動的主動化:強(qiáng)化進(jìn)修供給了用于推理序列決議計(jì)劃的情勢主義,而年夜型神經(jīng)收集供給了表征,準(zhǔn)繩上,可以用于應(yīng)用起碼的手工工程來來表現(xiàn)任何行動。但是,經(jīng)由理論證實(shí),將具有多層神經(jīng)收集表現(xiàn)(即深度強(qiáng)化進(jìn)修)的無模子強(qiáng)化進(jìn)修算法運(yùn)用于實(shí)際世界中的機(jī)械人掌握成績,這一進(jìn)程長短常艱苦的:無模子辦法的樣本龐雜性相當(dāng)高,而且因?yàn)槟暌谷萘亢瘮?shù)近似器的包涵性,龐雜性還將進(jìn)一步進(jìn)步。在以往的研討中,專家們試圖經(jīng)由過程在多個(gè)機(jī)械人上并行化進(jìn)修來減緩這些成績,好比應(yīng)用實(shí)例演示[,或模仿練習(xí),并依附準(zhǔn)確的模子完成向?qū)嶋H世界的遷徙。一切這些辦法都帶有附加的假定和局限性。那末,我們能否可以設(shè)計(jì)出一種無模子強(qiáng)化進(jìn)修算法,這類算法可以或許在不依附模仿、演示或多個(gè)機(jī)械人的情形下,直接對實(shí)際世界中的多層神經(jīng)收集模子停止高效練習(xí)?

我們假定,基于以下兩點(diǎn)性質(zhì),最年夜熵道理可認(rèn)為現(xiàn)實(shí)的、實(shí)際世界的深度強(qiáng)化進(jìn)修供給一個(gè)有用的框架。起首,最年夜熵戰(zhàn)略經(jīng)由過程玻爾茲曼散布(Boltzmann distribution)表達(dá)了一個(gè)隨機(jī)戰(zhàn)略,供給了一種內(nèi)涵的、明智的摸索戰(zhàn)略,它,其能量對應(yīng)于reward-to-go或Q函數(shù)。此散布為一切操作分派一個(gè)非零幾率,但希冀報(bào)答更高的操作更能夠被采樣。是以,該戰(zhàn)略將主動把摸索引向報(bào)答更高的區(qū)域。這類特征可以被看做是摸索和開辟的軟組合,在現(xiàn)實(shí)運(yùn)用中長短常無益的,由于它供給了比貪心摸索(greedy exploration)更多的構(gòu)造,而且正如我們試驗(yàn)所展現(xiàn)的那樣,這年夜年夜進(jìn)步了樣本的龐雜性。其次,正如我們在文章中所展現(xiàn)的那樣,自力練習(xí)的最年夜熵戰(zhàn)略可以經(jīng)由過程增長Q函數(shù)而其組合在一路,從而為歸并后的嘉獎函數(shù)發(fā)生一個(gè)新的戰(zhàn)略,該戰(zhàn)略被證實(shí)近乎于響應(yīng)的最優(yōu)戰(zhàn)略。在現(xiàn)實(shí)運(yùn)用中,掌握器的可組合性尤其主要,而這在尺度強(qiáng)化進(jìn)修中是弗成能的。在這些運(yùn)用中,反復(fù)應(yīng)用曩昔的經(jīng)歷可以極年夜地進(jìn)步義務(wù)的樣本效力(這些義務(wù)可以天然地分化為更簡略的子成績)。例如,拾取和放置的戰(zhàn)略可以分化為(1)達(dá)到指定的X坐標(biāo)(2)達(dá)到指定的Y坐標(biāo)(3)躲避妨礙。是以,這類可分化的戰(zhàn)略可以分三個(gè)階段進(jìn)修,每一個(gè)階段發(fā)生一個(gè)子戰(zhàn)略,而這些此戰(zhàn)略隨后可以在須要與情況停止交互的情形下停止離線組合。

對兩個(gè)自力的戰(zhàn)略停止練習(xí),從而響應(yīng)地推進(jìn)圓柱到橙色線和藍(lán)色線。黑色圓圈顯示了針對響應(yīng)戰(zhàn)略的圓柱達(dá)到終究地位的樣本。當(dāng)戰(zhàn)略組合在一路時(shí),生成的戰(zhàn)略會進(jìn)修將圓柱體推到線的下穿插點(diǎn)(綠色圓圈表現(xiàn)終究地位)。沒有來自情況的附加樣本用于對組合戰(zhàn)略停止練習(xí)。組合戰(zhàn)略進(jìn)修知足兩個(gè)原始目的,而不是簡略地均勻終究圓柱地位。

本文的重要進(jìn)獻(xiàn)是在最新提出的soft Q-learning(SQL)算法的基本上,提出了一種應(yīng)用具有表達(dá)性的神經(jīng)收集戰(zhàn)略進(jìn)修機(jī)械人操作技巧的進(jìn)修框架。我們證實(shí)了,該進(jìn)修框架為進(jìn)修各類機(jī)械人技巧供給了一種有用的機(jī)制,而且在現(xiàn)實(shí)機(jī)械人體系的樣本效力方面優(yōu)于今朝最早進(jìn)的無模子深度強(qiáng)化進(jìn)修辦法。我們的試驗(yàn)成果注解,在很年夜的水平上,SQL的機(jī)能要遠(yuǎn)遠(yuǎn)優(yōu)于深度肯定性戰(zhàn)略梯度(DDPG)和歸一化優(yōu)勢函數(shù)(NAF),這些算法曩昔曾被用于應(yīng)用神經(jīng)收集摸索實(shí)際世界中的無模子機(jī)械人進(jìn)修。我們還演示了對SQL算法的全新的擴(kuò)大,即應(yīng)用它對之前進(jìn)修過的技巧停止組合。我們提出了一個(gè)關(guān)于組合戰(zhàn)略和組合嘉獎函數(shù)最優(yōu)戰(zhàn)略之間差異的實(shí)際界線,它實(shí)用于SQL和其他基于軟優(yōu)化的強(qiáng)化進(jìn)修辦法。在試驗(yàn)中,我們應(yīng)用最年夜熵戰(zhàn)略在模仿范疇和物理范疇的組合性,展現(xiàn)了分歧技巧的魯棒性進(jìn)修,而且在樣本效力方面超出了現(xiàn)有的最早進(jìn)的辦法。

當(dāng)在Sawyer機(jī)械人長進(jìn)行練習(xí)以將其末尾履行器挪動到特定地位時(shí),DDPG(綠色)、NAF(白色)和SQL(藍(lán)色)的進(jìn)修曲線。SQL的進(jìn)修速度比其他辦法快很多。我們還經(jīng)由過程將希冀的地位銜接到不雅察向量(橙色)以練習(xí)SQL到達(dá)隨機(jī)采樣的末尾履行器地位。SQL學(xué)會盡快處理這個(gè)義務(wù)。SQL曲線顯示10個(gè)輪數(shù)中的挪動均勻值。

在本文中,我們商量了若何將soft Q-learning擴(kuò)大到實(shí)際世界中的機(jī)械人操作義務(wù)中,既可以進(jìn)修單個(gè)操作義務(wù),也能夠進(jìn)修可以或許構(gòu)成新戰(zhàn)略的組合義務(wù)。我們的試驗(yàn)注解,實(shí)質(zhì)下去說,soft Q-learning的機(jī)能要遠(yuǎn)遠(yuǎn)優(yōu)于無模子深度強(qiáng)化進(jìn)修。在模仿達(dá)到義務(wù)中,soft Q-learning具有比NAF更好的機(jī)能,個(gè)中包含多個(gè)戰(zhàn)略組合以達(dá)到新地位的情形。除此以外,在Sawyer機(jī)械人停止評價(jià)的真實(shí)世界義務(wù)的履行中,soft Q-learning的機(jī)能上勝過DDPG。該辦法具有更好的穩(wěn)固性和收斂性,而且經(jīng)由過程soft Q-learning取得的對Q函數(shù)停止組合的才能可使其在實(shí)際世界的機(jī)械人場景中特殊有效,個(gè)中針對每一個(gè)新嘉獎身分組合的新戰(zhàn)略停止再練習(xí)是耗時(shí)且昂貴的。

在不到兩個(gè)小時(shí)的時(shí)光里,便可以學(xué)會一個(gè)樂高堆疊戰(zhàn)略。進(jìn)修到的戰(zhàn)略對攪擾聚于很強(qiáng)的魯棒性:當(dāng)機(jī)械人被推動到一個(gè)與典范軌跡完整分歧的狀況后,它可以或許恢復(fù)并勝利地將樂高積木堆在一路。

在研討最年夜熵戰(zhàn)略的可組合性時(shí),我們推導(dǎo)出了組合戰(zhàn)略與組合嘉獎函數(shù)的最優(yōu)戰(zhàn)略之間誤差的界線。這一界線注解熵值較高的戰(zhàn)略能夠更輕易停止組合。在將來,一項(xiàng)成心義的研討偏向是探訪這一束縛對組合性的影響。例如,我們能否可以推導(dǎo)出一個(gè)可運(yùn)用于組合Q函數(shù)的修改,以削減誤差?答復(fù)如許的成績,會使得從先前練習(xí)過的構(gòu)建塊中創(chuàng)立新的機(jī)械人技巧變得加倍現(xiàn)實(shí),這使得機(jī)械人更輕易取得經(jīng)由過程強(qiáng)化進(jìn)修所學(xué)到的年夜量行動。

只要你關(guān)注機(jī)器人,你就無法錯過睿慕課

 
 
 
[ 行業(yè)資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]
 
 
展會更多+
視頻更多+
點(diǎn)擊排行
主站蜘蛛池模板: 合肥卓创建筑装饰,专业办公室装饰、商业空间装修与设计。 | 空压机网_《压缩机》杂志 | 风电变桨伺服驱动器-风电偏航变桨系统-深圳众城卓越科技有限公司 | 台式核磁共振仪,玻璃软化点测定仪,旋转高温粘度计,测温锥和测温块-上海麟文仪器 | 超声波气象站_防爆气象站_空气质量监测站_负氧离子检测仪-风途物联网 | 钢绞线万能材料试验机-全自动恒应力两用机-混凝土恒应力压力试验机-北京科达京威科技发展有限公司 | 大白菜官网,大白菜winpe,大白菜U盘装系统, u盘启动盘制作工具 | 美甲贴片-指甲贴片-穿戴美甲-假指甲厂家--薇丝黛拉 | 元拓建材集团官方网站 | 贝壳粉涂料-内墙腻子-外墙腻子-山东巨野七彩贝壳漆业中心 | 汽车水泵_汽车水泵厂家-瑞安市骏迪汽车配件有限公司 | 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 等离子空气净化器_医用空气消毒机_空气净化消毒机_中央家用新风系统厂家_利安达官网 | 软文发布-新闻发布推广平台-代写文章-网络广告营销-自助发稿公司媒介星 | 步进电机_agv电机_伺服马达-伺服轮毂电机-和利时电机 | 铝板冲孔网,不锈钢冲孔网,圆孔冲孔网板,鳄鱼嘴-鱼眼防滑板,盾构走道板-江拓数控冲孔网厂-河北江拓丝网有限公司 | 空气弹簧|橡胶气囊|橡胶空气弹簧-上海松夏减震器有限公司 | RFID电子标签厂家-上海尼太普电子有限公司 | TYPE-C厂家|TYPE-C接口|TYPE-C防水母座|TYPE-C贴片-深圳步步精 | 热熔胶网膜|pes热熔网膜价格|eva热熔胶膜|热熔胶膜|tpu热熔胶膜厂家-苏州惠洋胶粘制品有限公司 | 电缆接头_防水接头_电缆防水接头_防水电缆接头_上海闵彬 | 卫生纸复卷机|抽纸机|卫生纸加工设备|做卫生纸机器|小型卫生纸加工需要什么设备|卫生纸机器设备多少钱一台|许昌恒源纸品机械有限公司 | 紫外可见光分光度计-紫外分光度计-分光光度仪-屹谱仪器制造(上海)有限公司 | 引领中高档酒店加盟_含舍·美素酒店品牌官网 | 广西资质代办_建筑资质代办_南宁资质代办理_新办、增项、升级-正明集团 | 披萨石_披萨盘_电器家电隔热绵加工定制_佛山市南海区西樵南方综合保温材料厂 | 小程序开发公司_APP开发多少钱_软件开发定制_微信小程序制作_客户销售管理软件-济南小溪畅流网络科技有限公司 | 盛源真空泵|空压机-浙江盛源空压机制造有限公司-【盛源官网】 | 干式变压器厂_干式变压器厂家_scb11/scb13/scb10/scb14/scb18干式变压器生产厂家-山东科锐变压器有限公司 | 【连江县榕彩涂料有限公司】官方网站| 凝胶成像仪,化学发光凝胶成像系统,凝胶成像分析系统-上海培清科技有限公司 | 水平筛厂家-三轴椭圆水平振动筛-泥沙震动筛设备_山东奥凯诺矿机 包装设计公司,产品包装设计|包装制作,包装盒定制厂家-汇包装【官方网站】 | 成都茶楼装修公司 - 会所设计/KTV装修 - 成都朗煜装饰公司 | NM-02立式吸污机_ZHCS-02软轴刷_二合一吸刷软轴刷-厦门地坤科技有限公司 | 北京晚会活动策划|北京节目录制后期剪辑|北京演播厅出租租赁-北京龙视星光文化传媒有限公司 | 气密性检测仪_气密性检测设备_防水测试仪_密封测试仪-岳信仪器 | 丹佛斯变频器-Danfoss战略代理经销商-上海津信变频器有限公司 | 春腾云财 - 为企业提供专业财税咨询、代理记账服务 | 北京公司注册_代理记账_代办商标注册工商执照-企力宝 | 卫生纸复卷机|抽纸机|卫生纸加工设备|做卫生纸机器|小型卫生纸加工需要什么设备|卫生纸机器设备多少钱一台|许昌恒源纸品机械有限公司 | 过跨车_过跨电瓶车_过跨转运车_横移电动平车_厂区转运车_无轨转运车 |