近日,美圖公司社交產品事業群視覺算法組與清華大學自動化系智能視覺實驗室合作,推出了業界最大規模教程類行為數據集COIN(COmprehensive INstructional video analysis),該論文已被計算機視覺與模式識別會議CVPR 2019錄用。
教程類行為視頻(Instructional Video)可以幫助使用者獲取完成各種行為任務的知識,但是現有教程類行為視頻數據集在規模性和多樣性都存在較大的局限性,難以應用于現實生中的復雜場景。為此,美圖公司社交產品事業群視覺算法組與清華大學自動化系智能視覺實驗室合作提出了名為COIN的大規模教程類數據集,用于更全面的教程類行為視頻分析。
COIN數據集采用分層結構,即第一層是領域(Domain)、第二層是任務(Task)、第三層是步驟(Step),其中包含與日常生活相關的11827個視頻,涉及交通工具、電器維修、和家具裝修等12個領域的180個任務,共778個步驟。
COIN數據集的分層結構
COIN數據集的設計人員還開發了創新性的標注工具,可以更高效更準確地標注視頻行為的步驟信息。此外,為了給數據集提供更準確的基準指標,數據集開發人員還使用了SSN、R-C3D等評價方法對COIN數據集進行了測評。
COIN數據集的步驟定位準確率分析
目前,COIN數據集是業界規模最大、多樣性最豐富的教程類視頻數據集。該數據集在標注結構上采用分層的組織結構,涵蓋了多種不同類型的教程類視頻。該數據集的提出,給復雜場景下視頻動作時序定位(temporal localization)等問題的研究提供豐富的數據資源,有望加快推動視頻行為分析與理解等相關領域的研究。
美圖公司社交產品事業群視覺算法組,是美圖社交化的重要算法團隊之一。隨著“美和社交”戰略的發布,美圖秀秀從過去的純圖片處理軟件轉變為社區平臺。視覺算法組通過人工智能/深度學習算法,理解圖像和視頻內容中的語義信息,為社區中推薦、搜索、反作弊和垃圾過濾等提供有力的技術支撐。幫助用戶處理圖片的同時,增加社交功能及軟件活性。
數據集鏈接:https://coin-dataset.github.io