科技改變生活 · 科技引領(lǐng)未來
近日,亞太地區(qū)數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)國(guó)際會(huì)議——第23屆亞太地區(qū)知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議(Pacific Asia Knowledge Discovery and Data Mining,PAKDD)在澳門成功舉行。本次大會(huì),南京大學(xué)人工智能學(xué)院院長(zhǎng)周志華首先做了開幕致辭,第四范式首席科學(xué)家楊強(qiáng)教授、普渡大學(xué)副教授 Jennifer Neville、羅格斯大學(xué)大學(xué)終身教授熊輝、羅維拉·維爾吉利大學(xué)名譽(yù)教授 Josep Domingo-Ferrer等知名科學(xué)家先后在現(xiàn)場(chǎng)分享了對(duì)于知識(shí)挖掘領(lǐng)域最新的思考與技術(shù)進(jìn)展。除此之外,大會(huì)另一個(gè)重要看點(diǎn)是由第四范式、ChaLearn、微軟、亞馬遜聯(lián)合舉辦的“PAKDD 2019 AutoML Challenge”挑戰(zhàn)賽,現(xiàn)場(chǎng)公布了大賽最終成績(jī)并舉行了頒獎(jiǎng)儀式,深蘭科技 DeepBlueAI 、微軟亞洲研究院、北航組成的ML Intelligence以及清華大學(xué)的 meta_Learners 三只來自中國(guó)的隊(duì)伍包攬了本次比賽前三名,充分展示國(guó)內(nèi)在AutoML研究領(lǐng)域的實(shí)力。
據(jù)悉,本次AutoML大賽共吸引了全球127支隊(duì)伍參加,提交超550個(gè)競(jìng)賽方案,最終有31支隊(duì)伍進(jìn)入決賽進(jìn)行最終的比拼。比賽共分為Feedback phase、Test phase、AutoML phase三個(gè)階段,最終成績(jī)按照AutoML phase的AUC結(jié)果進(jìn)行評(píng)估排序得出,前三名成績(jī)排序在Feedback phase、AutoML phase兩個(gè)階段均一致。
本次比賽題目是貼近實(shí)際應(yīng)用的終身自動(dòng)機(jī)器學(xué)習(xí)(AutoML for Lifelong Machine Learning),旨在解決實(shí)際應(yīng)用過程中,數(shù)據(jù)分布不斷變化的動(dòng)態(tài)環(huán)境給自動(dòng)化機(jī)器學(xué)習(xí)帶來的難題。在設(shè)計(jì)能夠自主實(shí)現(xiàn)終身機(jī)器學(xué)習(xí)的方案中,需兼顧計(jì)算效率、多種特征類型、概念漂移(Concept Drift)、終身機(jī)器學(xué)習(xí)設(shè)定等諸多挑戰(zhàn)。
以本次大賽冠軍DeepBlueAI方案為例,囊括了自動(dòng)特征工程、自動(dòng)特征選擇、自動(dòng)模型調(diào)參、自動(dòng)模型融合等步驟的AutoML框架,并對(duì)數(shù)據(jù)類別不均衡、概念漂移、時(shí)間空間等方面進(jìn)行了針對(duì)性的處理和優(yōu)化,同時(shí)也有針對(duì)性的對(duì)概念漂移問題進(jìn)行處理,并且利用了多種策略對(duì)運(yùn)行時(shí)間和運(yùn)行內(nèi)存進(jìn)行了有效的控制,以確保解決方案能在規(guī)定時(shí)間和有限內(nèi)存下完成整個(gè)流程,并最終在挑戰(zhàn)賽中脫穎而出。
除了DeepBlueAI外,ML Intelligence本次參賽方案也提供另一類的方法,我們都知道AutoML系統(tǒng)從每一批數(shù)據(jù)的輸入到每一批的輸出,實(shí)現(xiàn)端到端的自動(dòng)化,完全不需要人參與,其中核心是自動(dòng)算法,包括自動(dòng)配置,自動(dòng)調(diào)參,自動(dòng)特征衍生和自動(dòng)篩選等。本次競(jìng)賽方案中,ML Intelligence為了能適應(yīng)一個(gè)長(zhǎng)時(shí)學(xué)習(xí)和在線學(xué)習(xí)的場(chǎng)景,能夠適應(yīng)特征或者樣本的概念漂移,提出了一種基于模型的(model based)的方法,這與傳統(tǒng)的基于分布(distribution based)的概念漂移檢測(cè)方法不同,不需要用人的經(jīng)驗(yàn)來做一些分布指標(biāo)就能夠?qū)崿F(xiàn)漂移特征的自動(dòng)檢測(cè)。實(shí)際操作是訓(xùn)練一個(gè)特別簡(jiǎn)單的GBDT模型,來區(qū)分兩個(gè)時(shí)間窗的樣本,通過特征重要性排序來排序分布偏移的大小。然后為了適應(yīng)場(chǎng)景,對(duì)高階衍生特征和原始重要特征做了不同的處理。
另外,meta_Learners團(tuán)隊(duì)本次設(shè)計(jì)了一套基于梯度提升樹(Gradient Boosting Tree)、概念遷移自適應(yīng)的自動(dòng)機(jī)器學(xué)習(xí)(AutoML)系統(tǒng)。在傳統(tǒng)AutoML框架基礎(chǔ)上,結(jié)合本次比賽的特點(diǎn)進(jìn)行了針對(duì)性的設(shè)計(jì)。首先,在特征工程方面針對(duì)類別特征高基數(shù)、長(zhǎng)尾分布的特點(diǎn)采用了頻數(shù)編碼;并設(shè)計(jì)了自動(dòng)特征工程模塊,可以針對(duì)不同數(shù)據(jù)集的特點(diǎn),高效地提取出有助于提升模型預(yù)測(cè)效果的多種特征組合;在概念遷移自適應(yīng)方面,采用自適應(yīng)的流式協(xié)同編碼技術(shù),提高數(shù)據(jù)集的表征一致性,從而提升了預(yù)測(cè)性能。在超參數(shù)調(diào)節(jié)上,團(tuán)隊(duì)設(shè)計(jì)了一種結(jié)合了先驗(yàn)知識(shí)和自動(dòng)搜索的層次化自動(dòng)調(diào)參策略,從而保障整個(gè)系統(tǒng)運(yùn)行的效率和魯棒性。
對(duì)于本次挑戰(zhàn)賽取得成績(jī)以及方案效果,大賽負(fù)責(zé)人、第四范式資深算法科學(xué)家涂威威表示:盡管大賽周期覆蓋了中國(guó)春節(jié)假期以及學(xué)生的期末放假時(shí)期,整個(gè)參賽隊(duì)伍的提交量依然超過了去年的NeurIPS的AutoML比賽,大家競(jìng)爭(zhēng)非常激烈;同時(shí),由于NeurIPS 2018的冠軍隊(duì)伍也公布了他們的方案,我們也看到這一屆的前三效果都遠(yuǎn)遠(yuǎn)超出了NeurIPS 2018年的冠軍解決方案效果;在整體方案上,這次前三在時(shí)序特征處理、不平衡數(shù)據(jù)處理以及對(duì)概念漂移問題的處理相比NeurIPS AutoML的解決方案都有了非常多的創(chuàng)新與進(jìn)步。未來希望大家更積極踴躍參加今后的AutoML比賽,共同推動(dòng)AutoML技術(shù)在AI產(chǎn)業(yè)中落地和應(yīng)用。
近年來,AutoML學(xué)術(shù)研究和應(yīng)用逐漸從前沿研究邁入了行業(yè)主流發(fā)展的階段,越來越多的研究機(jī)構(gòu)和企業(yè)都紛紛開始AutoML的研究工作,以國(guó)外ChaLearn、Google和國(guó)內(nèi)第四范式為代表的AutoML先行者則不遺余力推動(dòng)行業(yè)發(fā)展和應(yīng)用落地。PAKDD 2019 AutoML挑戰(zhàn)賽是今年AutoML的首場(chǎng)挑戰(zhàn)賽,接下來會(huì)迎來今年KDD CUP 2019 AutoML和 NeurIPS 2019 AutoDL兩場(chǎng)AutoML年度大賽,其中KDD CUP是首次舉辦AutoML挑戰(zhàn)賽,不僅開創(chuàng)了該項(xiàng)賽事22年歷史的先河,更印證了AutoML進(jìn)入學(xué)術(shù)研究和行業(yè)應(yīng)用的上升期。
值得欣慰的是,AutoML在國(guó)內(nèi)的發(fā)展一直處于領(lǐng)先水平,在以第四范式為代表國(guó)內(nèi)AI企業(yè)的積極帶動(dòng)和默默耕耘下,一方面將技術(shù)研究成果迅速落地實(shí)際生產(chǎn)應(yīng)用,另一方面與海外頂級(jí)學(xué)術(shù)組織聯(lián)合,在全球范圍內(nèi)的頂級(jí)會(huì)議中組織AutoML競(jìng)賽,大力推動(dòng)行業(yè)發(fā)展,成為了AutoML技術(shù)身后最堅(jiān)定有力的支持者。本次PAKDD 2019 AutoML競(jìng)賽前三名被中國(guó)隊(duì)包攬,充分展示了中國(guó)在AutoML領(lǐng)域的示范力量。
何俊
版權(quán)所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證備案號(hào):遼ICP備14006349號(hào)
網(wǎng)站介紹 商務(wù)合作 免責(zé)聲明 - html - txt - xml