亚洲工业智能制造领域专业门户网站 - 亚洲自动化与机器人网

 
當(dāng)前位置: 首頁 » 行業(yè)資訊 » 機(jī)器人»日本研究者提出新算法:讓機(jī)器人通過多模態(tài)深度強(qiáng)化學(xué)習(xí)獲得社會智能
   

日本研究者提出新算法:讓機(jī)器人通過多模態(tài)深度強(qiáng)化學(xué)習(xí)獲得社會智能

 46.1K
     [點(diǎn)擊復(fù)制]
放大字體  縮小字體 發(fā)布日期:2017-03-01   瀏覽次數(shù):621
核心提示:我們一向在等待機(jī)械人能在我們的平常生涯中施展主要的感化,而作為機(jī)械人強(qiáng)國的日本也一向是這一范疇的引導(dǎo)者之一。近日,日本年夜阪年夜學(xué)和日本迷信枝術(shù)復(fù)興機(jī)構(gòu)(JST)ERATO ISHIGURO 共生人機(jī)交互項(xiàng)目(Symbioti

我們一向在等待機(jī)械人能在我們的平常生涯中施展主要的感化,而作為機(jī)械人強(qiáng)國的日本也一向是這一范疇的引導(dǎo)者之一。近日,日本年夜阪年夜學(xué)和日本迷信枝術(shù)復(fù)興機(jī)構(gòu)(JST)ERATO ISHIGURO 共生人機(jī)交互項(xiàng)目(Symbiotic Human-Robot Interaction Project)的研討者在 arXiv 提交了一篇論文,引見了他們在機(jī)械人的社會智能上的研討結(jié)果。別的值得一提的是,他們的試驗(yàn)用到了有名的 Pepper 機(jī)械人。

摘要

要讓機(jī)械人與人類在相似我們社會那樣的社會世界中共存,它們須要控制相似人類的社交技巧,這是很癥結(jié)的。經(jīng)由過程編程的方法來讓機(jī)械人控制這些技巧是很艱苦的。在這篇論文中,我們提出了一種多模態(tài)深度 Q 收集(MDQN:Multimodal Deep Q-Network),可讓機(jī)械人經(jīng)由過程試錯(cuò)的辦法來進(jìn)修相似人類的交互技巧。這篇論文的目的是開辟可以或許在與人類的交互進(jìn)程中搜集數(shù)據(jù)而且可以或許應(yīng)用端到真?zhèn)€強(qiáng)化進(jìn)修從高維度傳感信息中進(jìn)修人類交互行動的機(jī)械人。本論文注解,機(jī)械人在經(jīng)由了與人類的 14 天交互以后,可以勝利學(xué)會根本的交互技巧。

圖 1:機(jī)械人向人進(jìn)修社交技巧

算法引見

這里提出的算法由兩個(gè)自力任務(wù)的流構(gòu)成:一個(gè)用于處置灰度幀(grayscale frame),另外一個(gè)用于處置深度幀(depth frame)。

上面的 Algorithm 1 概述了這個(gè)算法。由于該模子有兩個(gè)流,由于其參數(shù) θ 和 θ- 是由兩個(gè)收集的參數(shù)組成的。和 DQN [10] 分歧,我們將數(shù)據(jù)生成階段和練習(xí)階段離開了。每天的試驗(yàn)都對應(yīng)于一個(gè) episode,在這時(shí)代,算法要末履行數(shù)據(jù)生成階段,要末履行練習(xí)階段。

本研討所提出的算法的偽代碼

以下是這兩個(gè)階段的簡述:

數(shù)據(jù)生成階段(data generation phase):在數(shù)據(jù)生成階段,體系應(yīng)用 Q 收集 Q(s, a; θ) 來與其情況停止交互。該體系會不雅察以后場景(由灰度幀和深度幀組成),并應(yīng)用 ε-greedy 戰(zhàn)略來采用行為。該情況又會反過去供給標(biāo)量的嘉獎(jiǎng)(reward)(請參閱 5(2) 節(jié)懂得嘉獎(jiǎng)函數(shù)的界說)。交互閱歷是

其被存儲在重放記憶 M 中。重放記憶 M 會保留 N 個(gè)比來的閱歷,然后這些閱歷會在練習(xí)階段被用于更新該收集的參數(shù)。

練習(xí)階段(training phase):在練習(xí)階段,該體系會應(yīng)用存儲在重放記憶 M 中的數(shù)據(jù)來對收集停止練習(xí)。超參數(shù) n 表現(xiàn)閱歷重放的數(shù)目。關(guān)于每次閱歷重放,都邑從無限年夜小的重放記憶 M 中隨機(jī)采樣出一個(gè)包括 2000 次交互閱歷的迷你緩存器 B。該模子會在從緩存器 B 中采樣出的 mini batch 長進(jìn)行練習(xí),該收集的參數(shù)會在 bellman targets 的偏向上迭代式地更新。這個(gè)對重放記憶的隨機(jī)采樣會打破樣本之間的相干性,由于尺度的強(qiáng)化進(jìn)修辦法假定樣本是自力的且完整散布式的。將該算法分紅兩個(gè)階段的緣由是為了不延遲——假如該收集在交互時(shí)代同時(shí)停止練習(xí)就會發(fā)生這類延遲。該 DQN [16] 署理在一個(gè)輪回中任務(wù),個(gè)中它起首會與情況停止交互,然后會將這個(gè)改變存儲到重放記憶中,然后其會從該重放記憶中采樣出 mini batch,并在這個(gè) mini batch 上練習(xí)該收集。這個(gè)輪回會賡續(xù)反復(fù),直到終止。這個(gè)交互和練習(xí)的次序進(jìn)程在 HRI 以外的范疇或許是可以接收的。在 HRI 范疇,署理必需基于社會標(biāo)準(zhǔn)來和人類停止交互,是以機(jī)械人的任何停留和延遲都是弗成接收的。是以,我們將該算法分紅了兩個(gè)階段:在第一個(gè)階段,機(jī)械人經(jīng)由過程與人類停止無限時(shí)光的交互來搜集數(shù)據(jù);在第二個(gè)階段,其進(jìn)入階段。在這個(gè)歇息階段,練習(xí)階段激活從而對該多模態(tài)深度 Q 網(wǎng)路(MDQN)停止練習(xí)。

完成細(xì)節(jié)

這個(gè)模子由兩個(gè)流(stream)組成,一個(gè)用于灰度信息,另外一個(gè)用于深度信息。這兩個(gè)流的構(gòu)造是完整雷同的,每一個(gè)流都由 8 個(gè)層構(gòu)成(包含輸出層)。全體模子架構(gòu)如圖 2 所示。

圖 2:雙流式卷積神經(jīng)收集

該多模態(tài) Q 收集的 y 信道和 depth 信道的輸出分離是灰度圖象(198 × 198 × 8)和深度圖象(198 × 198 × 8)。由于每一個(gè)流都應(yīng)用 8 幀輸出,是以,來自對應(yīng)相機(jī)的最新的 8 幀是被預(yù)處置后堆疊到一路,組成該收集的每一個(gè)流的輸出。由于這兩個(gè)流是完整一樣的,所以我們在這里只評論辯論一個(gè)流的構(gòu)造便可。198 × 198 × 8 的輸出圖象起首被傳遞給第一個(gè)卷積層(C1),其以 3 的步幅卷積盤算 9×9 的 16 個(gè)濾波器,前面則隨著一個(gè)整流線性單位(ReLU)函數(shù)并獲得每一個(gè)年夜小為 64×64 的 16 個(gè)特點(diǎn)圖(我們將其記為 16@64×64)。這個(gè)來自 C1 的輸入然后會被送入下采樣層 S1,其以 2×2 的步幅運(yùn)用 2×2 的最年夜池化(max-pooling)。第二(C2)和第三(C3)個(gè)卷積層分離卷積盤算 32 和 64 個(gè)濾波器,其年夜小為 5×5,應(yīng)用了 1 的步幅。C2 和 C3 的輸入經(jīng)由過程非線性 ReLU 函數(shù),然后分離被送入下采樣層 S2 和 S3。最初的隱蔽層是帶有 256 個(gè)整流單位的全銜接層。輸入層則是一個(gè)全銜接的線性層,帶有 4 個(gè)單位,每個(gè)單位對應(yīng)一個(gè)正當(dāng)舉措。

圖 3:勝利和不勝利的握手示例

圖 4:在經(jīng)由了一系列的 episode 以后,MDQN 在測試數(shù)據(jù)集上的表示

 
 
 
[ 行業(yè)資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]
 
 
展會更多+
視頻更多+
點(diǎn)擊排行
主站蜘蛛池模板: 长沙广告公司_制作,长沙喷绘_发光字_招牌制作_长沙泓润广告官网 长城人品牌官网 | 手板_手板模型制作_cnc手板加工厂-东莞天泓 | 小型气象站_车载气象站_便携气象站-山东风途物联网 | 沈阳网站建设_沈阳网站制作_沈阳网页设计-做网站就找示剑新零售 沈阳缠绕膜价格_沈阳拉伸膜厂家_沈阳缠绕膜厂家直销 | 高光谱相机-近红外高光谱相机厂家-高光谱成像仪-SINESPEC 赛斯拜克 | 斗式提升机_链式斗提机_带式斗提机厂家无锡市鸿诚输送机械有限公司 | 山西3A认证|太原AAA信用认证|投标AAA信用证书-山西AAA企业信用评级网 | 智能门锁电机_智能门锁离合器_智能门锁电机厂家-温州劲力智能科技有限公司 | 杭州公司变更法人-代理记账收费价格-公司注销代办_杭州福道财务管理咨询有限公司 | 警用|治安|保安|不锈钢岗亭-售货亭价格-垃圾分类亭-移动厕所厂家-苏州灿宇建材 | 油漆辅料厂家_阴阳脚线_艺术漆厂家_内外墙涂料施工_乳胶漆专用防霉腻子粉_轻质粉刷石膏-魔法涂涂 | 工业电炉,台车式电炉_厂家-淄博申华工业电炉有限公司 | 称重传感器,测力传感器,拉压力传感器,压力变送器,扭矩传感器,南京凯基特电气有限公司 | 密集架-密集柜厂家-智能档案密集架-自动选层柜订做-河北风顺金属制品有限公司 | 奥因-光触媒除甲醛公司-除甲醛加盟公司十大品牌 | 德国BOSCH电磁阀-德国HERION电磁阀-JOUCOMATIC电磁阀|乾拓百科 | 磁力抛光机_磁力研磨机_磁力去毛刺机_精密五金零件抛光设备厂家-冠古科技 | 捷码低代码平台 - 3D数字孪生_大数据可视化开发平台「免费体验」 | 罗氏牛血清白蛋白,罗氏己糖激酶-上海嵘崴达实业有限公司 | 金属雕花板_厂家直销_价格低-山东慧诚建筑材料有限公司 | 权威废金属|废塑料|废纸|废铜|废钢价格|再生资源回收行情报价中心-中废网 | 微波消解仪器_智能微波消解仪报价_高压微波消解仪厂家_那艾 | 微妙网,专业的动画师、特效师、CG模型设计师网站! - wmiao.com 超声波电磁流量计-液位计-孔板流量计-料位计-江苏信仪自动化仪表有限公司 | 阿里巴巴诚信通温州、台州、宁波、嘉兴授权渠道商-浙江联欣科技提供阿里会员办理 | 好看的韩国漫画_韩漫在线免费阅读-汗汗漫画| 东莞市天进机械有限公司-钉箱机-粘箱机-糊箱机-打钉机认准东莞天进机械-厂家直供更放心! | 蓝牙音频分析仪-多功能-四通道-八通道音频分析仪-东莞市奥普新音频技术有限公司 | RFID电子标签厂家-上海尼太普电子有限公司 | 南京兰江泵业有限公司-水解酸化池潜水搅拌机-絮凝反应池搅拌机-好氧区潜水推进器 | 福州仿石漆加盟_福建仿石漆厂家-外墙仿石漆加盟推荐铁壁金钢(福建)新材料科技有限公司有保障 | 【化妆品备案】进口化妆品备案流程-深圳美尚美化妆品有限公司 | Pos机办理_个人商户免费POS机申请-拉卡拉办理网 | 东莞精密模具加工,精密连接器模具零件,自動機零件,冶工具加工-益久精密 | 手板-手板模型-手板厂-手板加工-生产厂家,[东莞创域模型] | 生物除臭剂-除味剂-植物-污水除臭剂厂家-携葵环保有限公司 | 刹车盘机床-刹车盘生产线-龙口亨嘉智能装备 | Akribis直线电机_直线模组_力矩电机_直线电机平台|雅科贝思Akribis-杭州摩森机电科技有限公司 | 湖南自考_湖南自学考试 | 游泳池设备安装工程_恒温泳池设备_儿童游泳池设备厂家_游泳池水处理设备-东莞市君达泳池设备有限公司 | 真石漆,山东真石漆,真石漆厂家,真石漆价格-山东新佳涂料有限公司 | 酒店厨房设计_中央厨房设计_北京商用厨房设计公司-奇能商厨 |