科技改變生活 · 科技引領未來
近日,全球計算機視覺頂會 CVPR 2019 在美國長灘拉開帷幕。北京曠視科技有限公司在 CVPR 2019 的3項挑戰賽中,最終擊敗Facebook、通用動力、戴姆勒等國內外一線科技巨頭/知名高校,共計斬獲6項世界冠軍!
本次賽事中,曠視共參加 CVPR 2019 WAD(Workshop on Autonomous Driving)、CVPR 2019 FGVC(Workshop on Fine-Grained Visual Categorization)、CVPR 2019 NTIRE(New Trends in Image Restoration and Enhancement workshop)3項挑戰賽,涵蓋自動駕駛、新零售、智能手機、3D 等眾多領域。
圖:曠視斬獲 CVPR 2019 挑戰賽6項世界冠軍
CVPR 2019 WAD nuScenes 3D Detection Challenge
CVPR 2019 WAD 是自動駕駛領域的權威比賽,其中nuScenes比賽方向是3D detection,旨在通過模型分析3D激光雷達/相機數據,賦予自動駕駛汽車偵測物體的能力,保障行駛安全。
nuScenes 是今年自動駕駛公司Aptiv發布的一個全新數據集,除了包括每段20秒的1000個場景以及140萬幅圖像外,該數據集使用了新的3D方法來整合物體檢測,并且發布了39萬個激光雷達掃描輸出。nuScenes不僅需要同時識別10類物體(相比KITTI只需預測單個類別),還加入了速度和屬性的預測,而且需要解決嚴重的類別不均衡問題,因此任務難度大幅提高,因而也更具有實際意義。
對此,曠視設計了一個多尺度、多任務的模型,借助新型檢測網絡,結合均衡采樣等策略,極大提高了模型的檢測精度,尤其是在小物體上。由最終結果可知,相較于官方baseline 45.3%,曠視的模型高出18個點,達到63.3%,比第二名也高出8.8個點,擊敗一系列頂尖團隊,一舉奪魁。
圖:曠視 nuScenes 3D Detection Challenge冠軍獎牌
CVPR 2019 WAD Detection/Tracking Domain Adaptation Challenge
Detection Domain Adaptation Challenge 是 CVPR 2019 WAD 的另一項挑戰賽,旨在對自動駕駛場景下的環境(二維圖像信息)進行感知,今年的比賽主要解決領域自適應問題,即美國道路場景和中國道路場景的相互適應。
具體而言,即利用7萬張美國道路場景數據進行訓練,對近15萬張中國道路場景進行測試,不允許使用任何標注測試數據,只允許使用 ImageNet 進行預訓練。圖像本身的不一致之外,不同天氣、不同道路以及復雜的交通狀況都給任務增加了額外挑戰,同時也為實際使用提供了可能性。
曠視基于自身積累的檢測算法之外,加之復現/使用的最前沿的檢測算法(比如 NAS-FPN、Cascade RCNN),進而對 Cascade RCNN 做出一系列改進,使得網絡在不同 IOU 閾值下的檢測結果都有一定漲幅;同時,為了解決兩個數據集之間數據分布不一致的問題,曠視還利用合并訓練、AdaBN、Data Distillation 等技術手段,最終在測試集上高出第二名深蘭科技1.7個點,同時在所有單類別上取得最高結果。
圖:曠視Detection Domain Adaptation Challenge冠軍獎牌
此外,在 Tracking Domain Adaptation Challenge 上,曠視使用 Online方法進行多目標跟蹤,即在高精度檢測結果的基礎上,使用 IOU Tracker 進行跟蹤;跟蹤過程中,改進和調試影響結果的多種因素,最終也在 Tracking 任務上取得第一。
CVPR 2019 FGVC iNaturalistHerbarium Challenge
CVPR 2019 FGVC 是細粒度識別領域最權威的賽事,iNaturalist Challenge 是此項領域的旗艦比賽,旨在讓計算機自動識別物體的精細類別,它不僅要求識別1000多個品種的動、植物,還要識別其在不同發育期的狀態;Herbarium Challenge 則要解決開花植物野牡丹科的物種分類問題,所采用的圖像集僅包括保存于臘葉標本上的干標本圖像。
因此,在這兩個比賽中,除了大模型/大分辨率圖圖像進行訓練、測試等常規操作外,曠視還集成最前沿細粒度技術成果(比如 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss 等),同時創造性提出“后驗概率重校準”技術,即通過先驗知識對模型輸出的后驗概率進行校準,極大提高擁有較少訓練圖像的長尾類別的識別準確率,兩項比賽結果均高出第2名近1個點,一舉奪魁。
在業務方面,商品識別、菜品識別、缺陷檢測、生產線零件識別、車型/車輛識別等均是細粒度圖像分析技術的應用,目前已應用于產品研發中。在 iNaturalist 上,曠視擊敗了通用動力等頂尖團隊;在 Herbarium 上,曠視擊敗了大連理工(上年冠軍)、瑞典自然歷史博物館、Facebook。
CVPR 2019 NTIRE Real Image Denosing Challenge
CVPR 2019 NTIRE Real Image Denosing Challenge 則基于最近新提出的智能手機圖像降噪數據集(Smartphone Image Denoising Dataset, SIDD),它由很多真實的噪聲圖像及其相應的 ground truth 組成,且每幅圖像都有以原始傳感器數據(raw)和標準 RBG(sRGB)格式存儲的兩個版本。因此,該項比賽分為了兩項子賽,分別針對 raw 與 sRGB 圖像進行去噪,而曠視研究院參戰前者。
事實上,圖像降噪一直是曠視研究院“手機攝影超畫質”的技術儲備項目,自第一版原型誕生以后,就在不斷迭代。其中,針對原始傳感器數據(raw)的圖像降噪更是整個項目的基礎技術。但就學術界來看,對圖像降噪的關注點一直以 RGB 圖像為主,對 raw 圖(尤其是手機上)少有關注。人們不了解如何對圖像進行前處理、后處理,也不了解在降噪過程中的具體注意事項,往往導致無法發揮數據百分百的力量。基于上述背景,曠視研究院希望借此機會分享在 raw 圖像降噪上的心得,同時驗證團隊實力,進行進一步鍛煉。
在這次比賽中,曠視研究院提出針對 raw 圖像的基于 U-Net 框架的“拜爾陣列歸一化與保列增廣”方法。盡管不同輸入圖像間的數據格式存在差異,但是,為保持網絡輸入一致性,曠視精心設計了一種數據預處理方法,使得相同的網絡工作應用到具有不同拜耳模式的輸入上,從而在保證性能的前提下用更大的圖像集合訓練網絡。此外,團隊還提出了適用于 raw 圖像的數據增廣方法。這些優勢可以幫助網絡獲得更好的泛化能力(且沒有額外的運行時)。
圖:“拜爾陣列歸一化與保列增廣”方法圖示
曠視研究員還發現了主辦方提供的第一版數據集里驗證集的錯誤,經分析,這很可能是由于人們對 raw 圖像處理的知識相對不足所造成的。由上述可知,學界對 raw 圖像展開的圖像降噪研究還處于剛剛起步階段,因此,這個小插曲從某種層面也說明了對 raw 圖像降噪研究的重要意義。對于錯誤的指出,主辦方及時進行了更正,并向曠視研究院參賽團隊發來了感謝信。
圖:曠視 Real Image Denosing Challenge 冠軍獎牌
依托圖像降噪算法,曠視超畫質技術在智能降噪的同時,能夠更好地保留畫面質感,大幅度優化拍攝和影像處理的時間,顯著提升用戶在夜晚和低光照環境下的拍攝體驗。目前,該算法已成功落地于 OPPO Reno 10 倍變焦版。OPPO Reno 10 倍變焦版搭載了基于曠視 MEGVII 超畫質技術研發的“超清夜景2.0”功能,能夠為用戶提供非同凡響的夜拍體驗。這也是曠視超畫質技術首次運用在大規模量產機型上。
能夠在CVPR 2019滿載而歸,對曠視而言意義重大。曠視首席科學家、曠視研究院院長孫劍表示:“一流的人才往往希望在一個開放的環境中成長。發表論文、參加學術會議,其實是有人對你的工作鼓掌,激勵你繼續前行。曠視研究院最寶貴的財產是人才。如何吸引、培養、保留人才是一個組織健康和高速發展最關鍵的。我的工作第一優先級是打造一個好的研發環境,讓公司贏,讓我們贏,讓每個人贏。因為我始終相信兩點:中國不缺乏聰明人,中國有世界上最好的發展機會。我們就是要把一幫聰明人聚起來,齊心協力,貫徹‘發展就是硬道理’。”
值得一提的是,曠視能夠在CVPR 2019斬獲六項冠軍的背后源自曠視深度學習框架 Brain++的有力支撐作用。Brain++是一套由曠視研究院自主原創的算法引擎,致力于從云、端、芯三個方面全面賦能物理世界,以實現對世界的感知、控制、優化。Brain++ 不僅助力曠視拿下世界冠軍,在未來,還將推動智能汽車、商品識別、手機影像處理、智慧農業等應用領域的進步發展。
陳熙一