亚洲工业智能制造领域专业门户网站 - 亚洲自动化与机器人网

 
當前位置: 首頁 » 行業資訊 » 機器人»實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題
   

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

 46.1K
     [點擊復制]
放大字體  縮小字體 發布日期:2017-08-06   瀏覽次數:921
核心提示:  現實任務中,應當怎樣做和教科書講的結論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結論失足了?  假如愿望懂得機械進修,或許曾經決議投身機械進修,你會第一時光找到各類教材停止充電,同時在心中默許:書

  現實任務中,應當怎樣做和教科書講的結論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結論失足了?

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  假如愿望懂得機械進修,或許曾經決議投身機械進修,你會第一時光找到各類教材停止充電,同時在心中默許:書里講的是牛人年夜神的終生聰明,是準確無誤的行為指南,賣力進修就可以取得疾速晉升。但現實情形是,你極可能曾經在走彎路。

  科技成長很快,數據在指數級增加,情況也在指數級轉變,是以許多時刻教科書會跟不上時期的成長。有時,即使是寫教科書的人,也不見得都明確結論面前的“所以然”,是以有些結論就會落伍于時期。針對這個成績,第四范式開創人、首席履行官戴文淵近日就在公司外部分享上,向年夜家引見了機械進修教材中的七個經典成績。戴文淵是ACM世界冠軍(2005年),“遷徙進修”全球領武士物,在遷徙進修范疇單篇論文援用數至今仍排名世界第三。曾任百度鳳巢戰略的技巧擔任人、華為諾亞方舟試驗室主任迷信家。

  本文依據演講實錄整頓,略有刪減。

  有時我們會發明,在現實任務中,應當怎樣做和教科書講的結論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結論失足了?現實上,有時確切如斯。所以明天我就想和年夜家分享一下機械進修教材中的一些經典成績,愿望對年夜家往后的任務和進修有所贊助。

  成績一:神經收集不宜跨越3層

  這是最著名毛病斷定,如今的教科書簡直曾經不再有如許的結論,但假如看15年、20年前的機械進修教科書,會有一個很風趣的結論:神經收集不克不及跨越三層。這和我們如今說的深度進修是抵觸的,深度進修如今年夜家比拼的不是神經收集能不克不及跨越三層,而是能不克不及做出一百層、一千層或許更多。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  那為何之前的教科書上會寫神經收集不克不及跨越三層,這就要從神經收集的汗青說起。五十年月有位迷信家叫Marvin Minksy,他是一名生物學家,數學又很好,所以他在研討神經元的時刻就在想能不克不及用數學模子去描繪生物的神經元,是以就設計了感知機。感知機就像一個神經細胞,它能像神經細胞一樣連起來,構成神經收集,就像年夜腦的神經收集。其其實60年月開端的時刻,是有很深的神經收集,但其時經由年夜量試驗發明,不跨越三層的神經收集后果不錯,因而年夜概到80年月時就得出結論:神經收集不宜跨越三層。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  那為何如今這條結論又被顛覆了呢?現實上這條結論是有條件前提的,即在數據量不年夜的情形下,神經收集不宜跨越三層。而從2005年開端,年夜家發明跟著數據增長,深度神經收集的表示優越,所以漸漸走向深度進修。其實這里真正準確的道理是Valiant引理,它可以懂得為“模子龐雜度(例如專家體系的規矩數目)要和數據量成反比”。數據量越年夜,模子就越龐雜。上個世紀由于數據量小,所以神經收集的層數不克不及太深,如今數據量年夜,所以神經收集的層數就要做深。這也說明了為何其時教科書會有如許的結論,而如今跟著深度進修的風行,年夜家曾經不再會以為這句話是對的。

  成績二:決議計劃樹不克不及跨越五層

  假如有同窗看教科書上引見決議計劃樹,會有一個說法就是決議計劃樹要減枝,決議計劃樹假如不減枝后果欠好。還有教科書會告知決議計劃樹不克不及跨越五層,跨越五層的決議計劃樹后果欠好。這個結論和神經收集結論一樣,神經收集不克不及跨越三層也是由于其時數據量不年夜,決議計劃樹不克不及跨越五層也是由于上個世紀數據量不敷年夜,二叉樹決議計劃樹假如深度是N的話,龐雜度年夜概是2的N次方,所以不跨越五層龐雜度也就是三十多。假如數據量到達一百萬的時刻,決議計劃樹能到達十幾二十層的范圍,假如數據量到了一百億的時刻決議計劃樹能夠要到三十幾層。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  如今,我們強調更深的決議計劃樹,這能夠和教科書講的相抵觸。抵觸的緣由是如今全部場景下數據質變年夜,所以要做更深的決議計劃樹。固然,我們也紛歧定在一切的場景里都有很年夜數據量,假如碰到了數據量小的場景,我們也要曉得決議計劃樹是要做淺的。最基本來講,就是看有若干數據,能寫出多龐雜的模子。

  成績三:特點選擇不克不及跨越一千個

  有些教科書會零丁開個章節來說特點選擇,告知我們在拿到數據后,要先刪除一些不主要的特點,乃至有的教科書注明,特點數不克不及跨越一千,不然模子后果欠好。但其實這個結論也是有條件前提的,假如數據量少,是不克不及夠充足支持許多特點,但假如數據量年夜,結論就會紛歧樣。這也就是為何我們做LogisticRegression會有幾十億個特點,而不是限制在幾百個特點。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  曩昔傳統數據剖析軟件,如SAS,之所以只要幾百個特點,是由于它出生于上世紀七十年月,它面對的成績是在詳細場景下沒有太多可用數據,能夠只要幾百上千個樣本。是以,在設計體系時,就只須要針對幾百個特點設計,不須要幾十億個特點,由于上千個樣本沒法支持幾十億特點。但如今,跟著數據量增長,特點量也須要增長。所以我以為,在年夜數據情況下,全部機械進修教科書里關于特點選擇的章節曾經落伍于時期,須要依據新的情勢從新撰寫;固然在小數據場景下,它依然具有價值。

  成績四:集成進修取得最勤學習后果

  第四個叫做集成進修,這個技巧在各類數據發掘競賽中特殊有效,好比近年KDD CUP的冠軍簡直都是采取集成進修。甚么是集成進修?它不是做一個模子,而是做許多(例如一千個)紛歧樣的模子,讓每一個模子投票,投票的成果就是終究的成果。假如不斟酌資本限制情形,這類形式是后果最好的。這也是為何KDDCUP選手們都選擇集成進修的方法,為了尋求最初后果,不在意投入若干,在這類前提下,集成進修就是最好的方法。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  但在實際中,企業做機械進修尋求的不是用無窮的資本做盡量好的后果,而是若何充足應用無限資本,取得最好后果。假定企業只要兩臺機械,若何用這兩臺機械取得最好的后果呢?假如采取集成進修,用兩臺機械跑五個模子,就要把兩臺機械分紅五份,每一個模子只能用0.4臺機械去跑,是以跑的數據量就無限。那假如換種方法,不消集成進修,就用一個模子去跑,就可以跑5倍的數據。平日5倍的數據量能比集成進修有更好的后果。在工業界比擬少會運用集成進修,重要是由于工業界絕年夜多半的場景都是資本受限,資本受限時最好的方法是想方法放出來更多的數據。集成進修由于跑更多的模子招致只能放更少的數據,平日這類后果都邑變差。

  成績五:正樣本和負樣本平衡采樣到1:1

  第五個叫做平衡采樣,絕年夜多半的教科書都邑講到。它是指假如我們練習一個模子,正樣本和負樣本很不屈均,好比在正樣本和負樣本1:100的情形下,就須要對正、負樣本做平衡采樣,把它釀成1:1的比例,如許才是最好的。但其實這個結論紛歧定對,由于統計進修里最基本的一條道理就是練習場景和測試場景的散布要一樣,所以這個結論只在一個場景下成立,那就是應用模子的場景中正、負樣本是1:1,那這個結論就是對的。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  準確的做法是,運用場景是1:100,那練習聚集最好也是1:100。平衡采樣紛歧建都是對的,多半情形下不采樣反而才是準確的。由于年夜多時刻,我們直接把練習聚集和測試聚集做隨機拆分,或許依照時光拆分,兩者的散布就是分歧的,誰人時刻不采樣是最好的。固然有時刻,我們也會發明做負樣本采樣會有更好的后果,好比范式在為某股分制銀行卡中間做生意業務反訛詐時,就做了負樣本采樣,那是由于當我們把一切樣本都放出來后,發明盤算資本不敷,所以只能做采樣。正樣本與負樣本年夜概是1:1000或許1:10000,假如對正樣本做采樣,喪失信息量會比擬年夜,所以我們選擇對負樣本采樣,好比做1:1000的采樣,再把負樣本以1000的加權加歸去。在資本受限時這么做,會盡量下降信息量的喪失。但假如僅僅是為了把它做平衡而做負樣本采樣,平日是紕謬的。和后面幾個成績分歧,負樣本采樣其實不是因情況轉變而結論變更,現實上就不該該做負樣本采樣。

  成績六:穿插驗證是最好的測試辦法

  下一個成績叫做穿插驗證,是指假定要將一份數據拆分紅練習集和測試集,這個時刻怎樣評價出它的誤差?穿插驗證是把聚集拆成五份,取四份做練習集、一份做測試集,而且每次選擇分歧的那一份做測試級,最初測出五個成果再做均勻,這被以為是最好的測試辦法。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  穿插驗證確切是一個還不錯的驗證的辦法,但在實際運用場景下,它常常不是最適合的一種方法。由于平日來講,我們用機械進修做的工作是猜測,絕年夜多半情形下我們是用如今或許曩昔的數據做一個模子來猜測將來。而拿曩昔的練習猜測將來的最好測試辦法不是穿插驗證,由于穿插驗證是依照生意業務或許按人拆分的。最適合的是辦法實際上是依照時光拆分,好比評價的時刻拔取一個時光點,用在這個時光點之前的數據做練習,猜測在這個時光點以后的,這是最接近真實運用場景的評價成果。

  穿插驗證能夠只實用于和時光屬性不相干的場景,好比人臉辨認,但我們面對更多的運用場景,不管是風險、營銷或許反訛詐,都是在用曩昔的數據練習后猜測將來,最適合如許場景的評價辦法不是穿插驗證,而是依照時光去拆分。

  成績七:過擬合必定欠好

  最初一個叫過擬合,這也是一個評論辯論特殊多的話題。之前,平日我們會說假如模子做的太龐雜了就會過擬合,如PPT左邊所示,而最好的方法應當是圖中中央的狀況——擬合的方才好,圖中右邊的模子underfitting,沒有練習完整。但如今來看,年夜多半的現實場景都是在拿曩昔猜測將來,過擬合紛歧定是欠好的,照樣要看詳細場景。假如這個場景是曩昔見過的情形比擬多,新的情形比擬少的時刻,過擬合反卻是好的。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  打個比喻,假如期末測驗題就是日常平凡的功課,那我們把日常平凡的功課都背一遍就是最好的方法,而這就是過擬合。假如期末測驗不考日常平凡功課,滿是新題,那末這個時刻就不克不及只背日常平凡的功課,還要充足懂得這門課的常識,控制若何推懂得題的技能。所以過擬合利害與否,完整取決于場景。假如運用場景依附逝世記硬背就可以弄定,那過擬合反卻是好的。現實上在我們的設計外面,許多時刻我們會偏向于往過擬合靠一點,能夠做新題會差一點,然則關于逝世記硬背的送分題會做的異常好。在拿曩昔猜測將來的運用場景下,有的時刻過擬合紛歧定欠好,要依據現實情形來看。

  明天與年夜家分享了教科書中的幾個經典成績。其其實現實工業運用中,我們不會完整依照教科書中的方法去理論。我們也會設計很深的模子、很深的決議計劃樹、許多的特點、會過擬合一點,我們更強調按時光拆分,不強調平衡采樣。面臨教科書中的結論,我們須要學會的是依據現實場景做出響應靈巧斷定。

只要你關注機器人,你就無法錯過睿慕課

 
 
 
[ 行業資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關閉窗口 ]
 
 
 
主站蜘蛛池模板: 天津力值检测-天津管道检测-天津天诚工程检测技术有限公司 | 最新范文网_实用的精品范文美文网| 拖链电缆_柔性电缆_伺服电缆_坦克链电缆-深圳市顺电工业电缆有限公司 | 电脑知识|软件|系统|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网 | 盘煤仪,盘料仪,盘点仪,堆料测量仪,便携式激光盘煤仪-中科航宇(北京)自动化工程技术有限公司 | 蜘蛛车-高空作业平台-升降机-高空作业车租赁-臂式伸缩臂叉装车-登高车出租厂家 - 普雷斯特机械设备(北京)有限公司 | 一路商机网-品牌招商加盟优选平台-加盟店排行榜平台 | 外贸网站建设-外贸网站设计制作开发公司-外贸独立站建设【企术】 | 淬火设备-钎焊机-熔炼炉-中频炉-锻造炉-感应加热电源-退火机-热处理设备-优造节能 | 磁力加热搅拌器-多工位|大功率|数显恒温磁力搅拌器-司乐仪器官网 | 铝板冲孔网,不锈钢冲孔网,圆孔冲孔网板,鳄鱼嘴-鱼眼防滑板,盾构走道板-江拓数控冲孔网厂-河北江拓丝网有限公司 | R507制冷剂,R22/R152a制冷剂厂家-浙江瀚凯制冷科技有限公司 | 韦伯电梯有限公司| 杜甫仪器官网|实验室平行反应器|升降水浴锅|台式低温循环泵 | 实验室隔膜泵-无油防腐蚀隔膜泵-耐腐蚀隔膜真空泵-杭州景程仪器 电杆荷载挠度测试仪-电杆荷载位移-管桩测试仪-北京绿野创能机电设备有限公司 | 非小号行情 - 专业的区块链、数字藏品行情APP、金色财经官网 | 商秀—企业短视频代运营_抖音企业号托管 | 乐泰胶水_loctite_乐泰胶_汉高乐泰授权(中国)总代理-鑫华良供应链 | 微型实验室真空泵-无油干式真空泵-微型涡旋耐腐蚀压缩机-思科涡旋科技(杭州)有限公司 | 气体检测仪-氢气检测仪-可燃气体传感器-恶臭电子鼻-深国安电子 | 金属波纹补偿器厂家_不锈钢膨胀节价格_非金属伸缩节定制-庆达补偿器 | 江苏远邦专注皮带秤,高精度皮带秤,电子皮带秤研发生产 | 全国国际学校排名_国际学校招生入学及学费-学校大全网 | 没斑啦-专业的祛斑美白嫩肤知识网站-去斑经验分享 | 回转窑-水泥|石灰|冶金-巩义市瑞光金属制品有限责任公司 | POM塑料_PBT材料「进口」聚甲醛POM杜邦原料、加纤PBT塑料报价格找利隆塑料 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | 游泳池设备安装工程_恒温泳池设备_儿童游泳池设备厂家_游泳池水处理设备-东莞市君达泳池设备有限公司 | 重庆波纹管|重庆钢带管|重庆塑钢管|重庆联进管道有限公司 | 可程式恒温恒湿试验箱|恒温恒湿箱|恒温恒湿试验箱|恒温恒湿老化试验箱|高低温试验箱价格报价-广东德瑞检测设备有限公司 | 影像测量仪_三坐标测量机_一键式二次元_全自动影像测量仪-广东妙机精密科技股份有限公司 | 骨密度仪-骨密度测定仪-超声骨密度仪-骨龄测定仪-天津开发区圣鸿医疗器械有限公司 | 短信通106短信接口验证码接口群发平台_国际短信接口验证码接口群发平台-速度网络有限公司 | 国产频谱分析仪-国产网络分析仪-上海坚融实业有限公司 | 有机肥设备生产制造厂家,BB掺混肥搅拌机、复合肥设备生产线,有机肥料全部加工设备多少钱,对辊挤压造粒机,有机肥造粒设备 -- 郑州程翔重工机械有限公司 | 高防护蠕动泵-多通道灌装系统-高防护蠕动泵-www.bjhuiyufluid.com慧宇伟业(北京)流体设备有限公司 | 工作服定制,工作服定做,工作服厂家-卡珀职业服装(苏州)有限公司 | 东莞市海宝机械有限公司-不锈钢分选机-硅胶橡胶-生活垃圾-涡电流-静电-金属-矿石分选机 | 长沙广告公司|长沙广告制作设计|长沙led灯箱招牌制作找望城湖南锦蓝广告装饰工程有限公司 | 磨煤机配件-高铬辊套-高铬衬板-立磨辊套-盐山县宏润电力设备有限公司 | 厌氧反应器,IC厌氧反应器,厌氧三相分离器-山东创博环保科技有限公司 |