科技改變生活 · 科技引領未來
整理:CV君繼目標檢測篇之后,繼續總結目標檢測相關論文,包含無監督域適應、小樣本、跨域、端到端、單階、多目標、半監督等目標檢測。共計28篇。大家可以在:https://openaccess.thecvf.com/CVPR2021?day=a
整理:CV君
繼目標檢測篇之后,繼續總結目標檢測相關論文,包含無監督域適應、小樣本、跨域、端到端、單階、多目標、半監督等目標檢測。共計 28 篇。
大家可以在:
https://openaccess.thecvf.com/CVPR2021?day=all
按照題目下載這些論文。
如果想要下載所有CVPR 2021論文,請點擊這里:
CVPR 2021 論文開放下載了!
無監督域適應目標檢測
MeGA-CDA: Memory Guided Attention for Category-Aware Unsupervised Domain Adaptive Object Detection
文章中提出 memory-guided attention maps,用于實現域適應目標檢測的類別分布匹配,此外,采用基于度量學習的方法計算類別特定的注意力maps,來提高記憶模塊的有效性。在幾個基準數據集上的評估顯示,以極大的優勢優于近期的域適應檢測方法。
作者 | Vibashan VS, Poojan Oza, Vishwanath A. Sindagi, Vikram Gupta, Vishal M. Patel
單位 | 約翰斯霍普金斯大學;MBRDI
論文 | https://arxiv.org/abs/2103.04224
Domain-Specific Suppression for Adaptive Object Detection
提出 domain-specific suppression 用于無監督域適應目標檢測,比最先進的方法有明顯改進,在所有這些域適應性場景中,MAP表現出10.2~12.2% 的提升。
作者 | Yu Wang, Rui Zhang, Shuo Zhang, Miao Li, YangYang Xia, XiShan Zhang, ShaoLi Liu
單位 | 中科院;寒武紀;國科大
論文 | https://arxiv.org/abs/2105.03570
跨域弱監督目標檢測
Informative and Consistent Correspondence Mining for Cross-Domain Weakly Supervised Object Detection
文中提出兩個新模塊:Informative Correspondence Mining(ICM)和 Correspondence Mining(CCM),用來解決跨域弱監督目標檢測。前者為局部語義遷移找到了信息豐富的跨域對應關系,而CCM將循環學習作為一致性正則器。在各種數據集上的實驗表明,所提出的方法與現有的方法相比,取得了相當大的改進。
作者 | Luwei Hou, Yu Zhang , Kui Fu, Jia Li
單位 | 北航;鵬城實驗室;商湯
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Hou_Informative_and_Consistent_Correspondence_Mining_for_Cross-Domain_Weakly_Supervised_Object_CVPR_2021_paper.pdf
備注 | CVPR 2021 oral
端到端目標檢測
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
Sparse R-CNN 在具有挑戰性的 COCO 數據集上被證實具有與成熟檢測器基線相當的精度、運行時間和訓練收斂性能,例如,在標準的 3× 訓練計劃中實現了 44.5 AP,使用 ResNet-50 FPN 模型可以以 22 fps 的速度運行。
作者 | Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan等
單位 | 香港大學;同濟大學;字節跳動;伯克利
論文 | https://arxiv.org/abs/2011.12450
代碼 | https://github.com/PeizeSun/SparseR-CNN
End-to-End Object Detection with Fully Convolutional Network
作者 | Jianfeng Wang, Lin Song, Zeming Li, Hongbin Sun, Jian Sun, Nanning Zheng
單位 | 曠視;西安交通大學
論文 | https://arxiv.org/abs/2012.03544
代碼 | https://github.com/Megvii-baseDetection/DeFCN
解讀 | https://zhuanlan.zhihu.com/p/332281368
Instant-Teaching: An End-to-End Semi-Supervised Object Detection framework
InstantTeaching,是一個完全端到端的、有效的 SSOD 框架,在每次訓練迭代中使用即時偽標注和擴展的弱-強數據增量進行教學。通過進一步提出基于InstantTeaching 的協同糾正方案,Instant-Teaching,來緩解確認偏差問題,提高偽標注的質量。
在 MS-COCO 和 PASCAL VOC 數據集上的實驗證明了所提出框架的優越性。如,當使用 2% 的標記數據時,所提出方法在 MS-COCO 上超過了最先進的方法 4.2 mAP。即使有 MS-COCO 的全部監督信息,仍然比最先進的方法高出約 1.0 mAP。在 PASCAL VOC 上,通過應用 VOC07 作為標記數據和 VOC12 作為無標記數據,可以實現超過 5mAP 的改進。
作者 | Qiang Zhou, Chaohui Yu, Zhibin Wang, Qi Qian, Hao Li
單位 | 阿里
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Zhou_Instant-Teaching_An_End-to-End_Semi-Supervised_Object_Detection_framework_CVPR_2021_paper.pdf
One-Stage目標檢測
I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage Object Detectors
Implicit Instance-Invariant Network(I3Net)是為適應 one-stage 檢測器而制定,并通過利用不同層的深度特征的自然特性來隱式學習實例不變的特征。實驗表明,I3Net 在基準數據集上的性能超過了最先進水平。
作者 | Chaoqi Chen, Zebiao Zheng, Yue Huang, Xinghao Ding, Yizhou Yu
單位 | 香港大學;廈門大學;Deepwise AI Lab
論文 | https://arxiv.org/abs/2103.13757
多目標檢測與跟蹤
There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
通過蒸餾多模態知識用聲音進行自監督的多目標檢測和跟蹤
作者 | Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada
單位 | University of Freiburg
論文 | https://arxiv.org/abs/2103.01353
open-vocabulary 目標檢測
Open-Vocabulary Object Detection Using Captions
本文中對目標檢測問題提出新的表述:open-vocabulary object detection,比弱監督和零樣本方法更普遍、更實用、更有效。并提出一種新的方法 OVR-CNN,利用有限的物體類別的邊界框標注來訓練目標檢測器,以及涵蓋更多種類物體的 image-caption 對,而且成本明顯降低。
實驗結果表明,所提出的方法可以檢測和定位在訓練期間沒有提供邊界框標注的物體,其準確度明顯高于零樣本方法。同時,有邊界框標注的物體檢測精度幾乎與監督方法一樣,明顯優于弱監督的基線。因此,為可擴展的目標檢測建立了一個新的 SOTA。
作者 | Alireza Zareian, Kevin Dela Rosa, Derek Hao Hu, Shih-Fu Chang
單位 | Snap Inc;哥倫比亞大學
論文 | https://arxiv.org/abs/2011.10678
代碼 | https://github.com/alirezazareian/ovr-cnn
備注 | CVPR 2021 oral
基于 ranking 的目標檢測
RankDetNet: Delving into Ranking Constraints for Object Detection
提出一個基于 ranking 的目標檢測的優化算法,并有 global ranking, class-specific ranking 和 IoU-guided ranking losses 三種 ranking 約束。
實驗表明,RankDetNet 可以持續改善最先進的基于錨點和無錨點的二維檢測基線和三維檢測方法,并證明該方法的優越性和通用性。
作者 | Ji Liu, Dong Li, Rongzhang Zheng, Lu Tian, Yi Shan
單位 | 賽靈思
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Liu_RankDetNet_Delving_Into_Ranking_Constraints_for_Object_Detection_CVPR_2021_paper.pdf
跨域目標檢測
Unbiased Mean Teacher for Cross-domain Object Detection
本次工作中,作者通過利用檢測模型容易對源圖像產生偏差這一視角對跨域目標檢測這一問題進行了研究。提出 Unbiased Mean Teacher(UMT),通過設計三種非常有效的策略來彌補模型的偏差。具體來說,先引入 cross-domain 蒸餾,以最大限度地利用教師模型的專業知識;然后,通過像素級的適應來進一步增加學生模型的訓練樣本,以減少其模型偏差;最后, 利用 out-of-distribution 估計策略,選擇最適合當前模型的樣本來加強跨域蒸餾過程。
實驗結果表明,UMT 以相對較大的幅度超過了現有的最先進的模型。如,在基準數據集 Clipart1k、Watercolor2k、Foggy Cityscapes 和 Cityscapes上的 mAPs 分別達到了 44.1%、58.1%、41.7% 和 43.1%。
作者 | Jinhong Deng, Wen Li, Yuhua Chen, Lixin Duan
單位 | 電子科技大學;蘇黎世聯邦理工學院
論文 | https://arxiv.org/abs/2003.00707
代碼 | https://github.com/kinredon/umt
RPN Prototype Alignment for Domain Adaptive Object Detector
文中提出一種用于跨域目標檢測的新型 RPN 原型對齊方法,它強制兩個域的 RPN 特征分別與前景和背景的可學習原型對齊。具體來說,提出一種簡單而有效的偽標簽生成方法來指導目標域中 RPN 特征的學習。此外,為了提高前景 RPN 特征的可辨別性,作者提出從 RPC 中生成注意力圖來對 RPN 特征進行空間調制。
對不同場景的綜合實驗都驗證了所提出方法的有效性。
作者 | Yixin Zhang ,Zilei Wang, Yushi Mao
單位 | 中國科學技術大學
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_RPN_Prototype_Alignment_for_Domain_Adaptive_Object_Detector_CVPR_2021_paper.pdf
半監督目標檢測
Interpolation-based semi-supervised learning for object detection
文中提出基于 Interpolation 的用于目標檢測的半監督學習方法,(ISD)。考慮并解決了由傳統的插值正則化(IR)直接應用于目標檢測所引起的問題。
實驗證明,在監督學習環境中,所提出方法以很大的幅度提高了基準方法。在半監督學習環境中,該算法提高了基準架構(SSD)中基準數據集(PASCAL VOC和MSCOCO)的性能。
作者 | Jisoo Jeong, Vikas Verma, Minsung Hyun, Juho Kannala, Nojun Kwak
單位 | 首爾大學等
論文 | https://arxiv.org/abs/2006.02158
代碼 | https://github.com/soo89/ISD-SSD
Data-Uncertainty Guided Multi-Phase Learning for Semi-Supervised Object Detection
本文為 半監督目標檢測提出 data uncertainty guided multi-phase 學習方法。可以使模型充分利用所有的信息和不確定性描述指導訓練過程,使檢測器集中于某些知識。在 PASCAL VOC 和 MS COCO 數據集上結果達到 78.6%和 42.3%,分別超過最先進方法的 2.4% 和 2.2%。
作者 | Zhenyu Wang, Yali Li, Ye Guo, Lu Fang, Shengjin Wang
單位 | 清華大學
論文 | https://arxiv.org/abs/2103.16368
Points as Queries: Weakly Semi-supervised Object Detection by Points
文中提出 Point DETR,在 COCO 數據集上,僅使用 20% 完全標注的數據,檢測器可達 33.3AP,超過基線 2.0AP。
作者 | Liangyu Chen、Tong Yang、Xiangyu Zhang、Wei Zhang、Jian Sun
單位 | 曠視】復旦大學
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Chen_Points_As_Queries_Weakly_Semi-Supervised_Object_Detection_by_Points_CVPR_2021_paper.pdf
簡介 | 第六條
Interactive Self-Training with Mean Teachers for Semi-supervised Object Detection
文中提出一種交互式的自訓練形式框架,使用 mean teachers 進行半監督的目標檢測。可以避免過度擬合,提高半監督目標檢測的偽標簽質量。并在MS-COCO 和 PASCAL-VOC上的實驗結果驗證它的有效性。
作者 | Qize Yang, Xihan Wei, Biao Wang, Xian-Sheng Hua, Lei Zhang
單位 | 阿里;香港理工大學
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Yang_Interactive_Self-Training_With_Mean_Teachers_for_Semi-Supervised_Object_Detection_CVPR_2021_paper.pdf
Humble Teachers Teach Better Students for Semi-Supervised Object Detection
文中提出 humble teacher 方法用于半監督目標檢測,在低數據和高數據狀態下都優于以前的最先進水平。
作者 | Yihe Tang、 Weifeng Chen、Yijun Luo 、Yuting Zhang
單位 | 卡內基梅隆大學;亞馬遜
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Tang_Humble_Teachers_Teach_Better_Students_for_Semi-Supervised_Object_Detection_CVPR_2021_paper.pdf
弱監督目標定位
Shallow Feature Matters for Weakly Supervised Object Localization
弱監督目標定位(WSOL)旨在僅利用圖像級別的標簽來定位目標。CAMs 是實現 WSOL 的常用特征。但以前基于 CAM 的方法并沒有充分利用shallow 特征,盡管它們對WSOL很重要。因為通過傳統的融合,shallow 特征很容易被埋沒在背景噪聲中。
文中提出 Shallow feature-aware Pseudo supervised Object Localization(SPOL)模型,用于準確的 WSOL,它充分利用了嵌入淺層的低層次特征。進一步提出 Gaussian prior pseudo label(GPPL)和類別無關的分割模型,以實現 WSOL 的更好的目標掩碼。
實驗結果表明,SPOL 在 CUB200 和 ImageNet-1K 基準上的表現超過了最先進的水平,分別達到了 93.44% 和 67.15%(即3.93%和2.13%的提高)的Top-5 定位精度。
作者 | Jun Wei,Qin Wang,Zhen Li,Sheng Wang,S.Kevin Zhou, Shuguang Cui
單位 | 香港中文大學(深圳);深圳市大數據研究院;中國科學技術大學;中科院;南方科技大學
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Wei_Shallow_Feature_Matters_for_Weakly_Supervised_Object_Localization_CVPR_2021_paper.pdf
Unveiling the Potential of Structure Preserving for Weakly Supervised Object Localization
基于結構信息保持的弱監督目標定位
作者 | Xingjia Pan, Yingguo Gao, Zhiwen Lin, Fan Tang, Weiming Dong, Haolei Yuan, Feiyue Huang, Changsheng Xu
單位 | 騰訊優圖;吉林大學;中科院等
論文 | https://arxiv.org/abs/2103.04523
代碼 | https://github.com/Panxjia/SPA_CVPR2021
簡介 | 13
Strengthen Learning Tolerance for Weakly Supervised Object Localization
文中提出一種新型的分離式定位分類方法 SLT-Net,用于弱監督目標定位。SLT-Net 通過加強對語義錯誤和數據分布多樣性的學習容忍度來提高定位性能。提出 class-tolerance 分類模塊,以加強對語義分類錯誤的容忍度,它可以通過減少類似類別中錯誤分類的懲罰來緩解部分支配問題。通過將轉換后的圖像的視覺反應圖與原始圖像的視覺反應圖相匹配,加強對圖像多樣性的容忍度。
在細粒度數據集 CUB 和大規模數據集 ILSVRC2012 上進行的實驗證明了所提方法的有效性。
作者 | Guangyu Guo, Junwei Han, Fang Wan, Dingwen Zhang
單位 | 西北工業大學;國科大
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Guo_Strengthen_Learning_Tolerance_for_Weakly_Supervised_Object_Localization_CVPR_2021_paper.pdf
主頁 | https://nwpu-brainlab.gitee.io/index_en
密集目標檢測
Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection
作者 | Xiang Li, Wenhai Wang, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang
單位 | 南京理工大學;Momenta;南京大學;清華大學
論文 | https://arxiv.org/abs/2011.12885
代碼 | https://github.com/implus/GFocalV2
解讀 | 目標檢測無痛漲點之 Generalized Focal Loss V2
VarifocalNet: An IoU-aware Dense Object Detector
作者 | Haoyang Zhang, Ying Wang, Feras Dayoub, Niko Sünderhauf
單位 | 昆士蘭科技大學;昆士蘭大學
論文 | https://arxiv.org/abs/2008.13367
代碼 | https://github.com/hyz-xmaster/VarifocalNet
備注 | CVPR 2021 oral
Beyond Bounding-Box: Convex-hull Feature Adaptation for Oriented and Densely Packed Object Detection
提出 convex-hull representation,通過可學習的特征配置檢測不規則形狀和/或布局的物體。又提出 convex-hull feature adaptation(CFA)方法,結合了 CIoU 和 feature antialiasing strategies,以及定義一種系統的方法來檢測定向和密集的物體。
在 DOTA 和 SKU110KR 數據集上的實驗表明,CFA 明顯優于基線方法,取得了新的最先進檢測性能。
作者 | Zonghao Guo, Chang Liu, Xiaosong Zhang, Jianbin Jiao, Xiangyang Ji,Qixiang Ye
單位 | 國科大;清華
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Guo_Beyond_Bounding-Box_Convex-Hull_Feature_Adaptation_for_Oriented_and_Densely_Packed_CVPR_2021_paper.pdf
無監督目標檢測
Unsupervised Object Detection With LIDAR Clues
作者 | Hao Tian, Yuntao Chen, Jifeng Dai, Zhaoxiang Zhang, Xizhou Zhu
單位 | 商湯;中國科學院大學等
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Tian_Unsupervised_Object_Detection_With_LIDAR_Clues_CVPR_2021_paper.pdf
偽裝目標檢測
Mutual Graph Learning for Camouflaged Object Detection
問題:對于目前的模型來說,自動檢測/分割與周圍環境融為一體的物體是非常困難的。一個主要原因是前景物體和背景環境之間的內在相似性使得深度模型所提取的特征無法區分。
方案:設計了 Mutual Graph Learning(MGL)模型,將傳統的相互學習理念從常規的網格推廣到圖域。具體來說,MGL 將一幅圖像解耦為兩個特定任務的特征圖:一個用于大致定位,另一個用于準確捕捉其邊界細節,并通過圖形對它們的高階關系進行反復推理,充分挖掘它們的相互優勢。重要的是,與大多數使用共享函數來模擬所有任務間互動的相互學習方法相比,MGL配備了處理不同互補關系的類型化函數,以最大化信息互動。
結果:在包括 CHAMELEON、CAMO 和 COD10K 上的實驗,證明了 MGL 的有效性,以及其性能優于現有的先進方法。
作者 | Qiang Zhai, Xin Li, Fan Yang, Chenglizhao Chen, Hong Cheng, Deng-Ping Fan
單位 | 電子科技大學;G42;青島大學;IIAI
論文 | https://arxiv.org/abs/2104.02613
代碼 | https://github.com/fanyang587/MGL
玻璃表面檢測
Rich Context Aggregation With Reflection Prior for Glass Surface Detection
文中提出一個新模型,用于 glass surface detection。它由兩個模塊組成:一個是 Rich Context Aggregation Module (RCAM),用于多尺度邊界特征提取;另一個是 Reflection-based Refinement Module (RRM),用于提取玻璃反射。并構建了一個具有挑戰性的玻璃表面數據集,由 4,012 張來自不同的場景帶有玻璃表面掩膜的真實世界圖像組成。
實驗表明,所提出的模型優于相關領域的最先進方法。
作者 | Jiaying Lin ,Zebang He ,Rynson W.H. Lau
單位 | 香港城市大學
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Lin_Rich_Context_Aggregation_With_Reflection_Prior_for_Glass_Surface_Detection_CVPR_2021_paper.pdf
陰影檢測
Single-Stage Instance Shadow Detection with Bidirectional Relation Learning
Instance Shadow Detection 的目的是找到 shadow instances, object instances 和 shadow-object 的關聯,在光向估計和照片編輯中都有應用。
文中提出一個單階全卷積網絡架構,其中有一個雙向關系學習模塊,以端到端的方式直接學習陰影和物體實例的關系。
并在基準數據集上對該方法進行了評估,結果表明,優于最先進的方法。
作者 | Tianyu Wang, Xiaowei Hu, Chi-Wing Fu、Pheng-Ann Heng
單位 | 港中文;中科院
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Wang_Single-Stage_Instance_Shadow_Detection_With_Bidirectional_Relation_Learning_CVPR_2021_paper.pdf
代碼 | https://github.com/stevewongv/SSIS
備注 | CVPR 2021 Oral
Triple-cooperative Video Shadow Detection
本次的研究工作共有兩個貢獻。其一是收集了一個學習型視頻陰影檢測(ViSha)數據集,其中包含 120 個視頻,11,685 幀,涵蓋各種物體和場景,具有像素級的陰影標注。其二是開發了一個用于視頻陰影檢測的新型網絡,通過學習陰影的視頻內和視頻間的鑒別特性。
實驗證明所提出方法始終比 12 種最先進的方法有很大的優勢。并且作者稱是個用于視頻陰影檢測的標注數據集,ViSha 數據集可以促進視頻陰影檢測的進一步研究。
作者 | Zhihao Chen, Liang Wan, Lei Zhu, Jia Shen, Huazhu Fu, Wennan Liu, Jing Qin
單位 | 天津大學;劍橋大學;起源人工智能研究院;香港理工大學
論文 | https://arxiv.org/abs/2103.06533
代碼 | https://github.com/eraserNut/ViSha
- END -
編輯:CV君
轉載請聯系本公眾號授權
馬書東