一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

清華大學提出LiVT,用視覺Transformer學習長尾數(shù)據,解決不平衡標注數(shù)據不在話下

 天承辦公室 2023-06-16 發(fā)布于北京

機器之心專欄

機器之心編輯部
本篇文章為大家介紹清華大學在 CVPR 2023 的論文,Learning Imbalanced Data with Vision Transformers(用視覺 Transformer 學習長尾數(shù)據),代碼已開源。
背景

在機器學習領域中,學習不平衡的標注數(shù)據一直是一個常見而具有挑戰(zhàn)性的任務。近年來,視覺 Transformer 作為一種強大的模型,在多個視覺任務上展現(xiàn)出令人滿意的效果。然而,視覺 Transformer 處理長尾分布數(shù)據的能力和特性,還有待進一步挖掘。

目前,已有的長尾識別模型很少直接利用長尾數(shù)據對視覺 Transformer(ViT)進行訓練。基于現(xiàn)成的預訓練權重進行研究可能會導致不公平的比較結果,因此有必要對視覺 Transformer 在長尾數(shù)據下的表現(xiàn)進行系統(tǒng)性的分析和總結。

Image

  • 論文鏈接:https:///abs/2212.02015
  • 代碼鏈接:https://github.com/XuZhengzhuo/LiVT

本文旨在填補這一研究空白,詳細探討了視覺 Transformer 在處理長尾數(shù)據時的優(yōu)勢和不足之處。本文將重點關注如何有效利用長尾數(shù)據來提升視覺 Transformer 的性能,并探索解決數(shù)據不平衡問題的新方法。通過本文的研究和總結,研究團隊有望為進一步改進視覺 Transformer 模型在長尾數(shù)據任務中的表現(xiàn)提供有益的指導和啟示。這將為解決現(xiàn)實世界中存在的數(shù)據不平衡問題提供新的思路和解決方案。

文章通過一系列實驗發(fā)現(xiàn),在有監(jiān)督范式下,視覺 Transformer 在處理不平衡數(shù)據時會出現(xiàn)嚴重的性能衰退,而使用平衡分布的標注數(shù)據訓練出的視覺 Transformer 呈現(xiàn)出明顯的性能優(yōu)勢。相比于卷積網絡,這一特點在視覺 Transformer 上體現(xiàn)的更為明顯。另一方面,無監(jiān)督的預訓練方法無需標簽分布,因此在相同的訓練數(shù)據量下,視覺 Transformer 可以展現(xiàn)出類似的特征提取和重建能力。

基于以上觀察和發(fā)現(xiàn),研究提出了一種新的學習不平衡數(shù)據的范式,旨在讓視覺 Transformer 模型更好地適應長尾數(shù)據。通過這種范式的引入,研究團隊希望能夠充分利用長尾數(shù)據的信息,提高視覺 Transformer 模型在處理不平衡標注數(shù)據時的性能和泛化能力。

文章貢獻

本文是第一個系統(tǒng)性的研究用長尾數(shù)據訓練視覺 Transformer 的工作,在此過程中,做出了以下主要貢獻:

首先,本文深入分析了傳統(tǒng)有監(jiān)督訓練方式對視覺 Transformer 學習不均衡數(shù)據的限制因素,并基于此提出了雙階段訓練流程,將視覺 Transformer 模型內在的歸納偏置和標簽分布的統(tǒng)計偏置分階段學習,以降低學習長尾數(shù)據的難度。其中第一階段采用了流行的掩碼重建預訓練,第二階段采用了平衡的損失進行微調監(jiān)督。

Image


其次,本文提出了平衡的二進制交叉熵損失函數(shù),并給出了嚴格的理論推導。平衡的二進制交叉熵損失的形式如下:

Image


與之前的平衡交叉熵損失相比,本文的損失函數(shù)在視覺 Transformer 模型上展現(xiàn)出更好的性能,并且具有更快的收斂速度。研究中的理論推導為損失函數(shù)的合理性提供了嚴密的解釋,進一步加強了我們方法的可靠性和有效性。

Image

不同損失函數(shù)的收斂速度的比較

基于以上貢獻,文章提出了一個全新的學習范式 LiVT,充分發(fā)揮視覺 Transformer 模型在長尾數(shù)據上的學習能力,顯著提升模型在多個數(shù)據集上的性能。該方案在多個數(shù)據集上取得了遠好于視覺 Transformer 基線的性能表現(xiàn)。

Image

不同參數(shù)量下在 ImageNet-LT 上的準確性。

Image

在 ImagNet-LT(左)和 iNaturalist18(右)數(shù)據集上的性能表現(xiàn)

同時,本文還驗證了在相同的訓練數(shù)據規(guī)模的情況下,使用ImageNet的長尾分布子集(LT)和平衡分布子集(BAL)訓練的 ViT-B 模型展現(xiàn)出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 數(shù)據集中,可以通過更大的模型和 MGP epoch 獲得更好的重建結果。

Image


總結

本文提供了一種新的基于視覺 Transformer 處理不平衡數(shù)據的方法 LiVT。LiVT 利用掩碼建模和平衡微調兩個階段的訓練策略,使得視覺 Transformer 能夠更好地適應長尾數(shù)據分布并學習到更通用的特征表示。該方法不僅在實驗中取得了顯著的性能提升,而且無需額外的數(shù)據,具有實際應用的可行性。

論文的更多細節(jié)請參考論文原文和補充材料。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    欧美午夜一区二区福利视频| 国产一区二区三区色噜噜| 国产欧美一区二区久久| 大香蕉网国产在线观看av| 国产一区二区三区免费福利| 国产成人精品资源在线观看| 91欧美一区二区三区成人| 丰满人妻一二区二区三区av| 在线观看免费视频你懂的| 99热在线精品视频观看| 午夜精品国产精品久久久| 97人妻精品一区二区三区免| 日韩精品一区二区亚洲| 亚洲熟妇av一区二区三区色堂| 日韩成人动画在线观看| 日本精品最新字幕视频播放| 99视频精品免费视频播放| 九九热在线视频精品免费| 视频在线免费观看你懂的| 91插插插外国一区二区| 神马午夜福利免费视频| 一区二区三区欧美高清| 精品人妻一区二区三区四在线| 国产精品欧美日韩中文字幕| 邻居人妻人公侵犯人妻视频| av一区二区三区天堂| 免费国产成人性生活生活片| 国产精品人妻熟女毛片av久 | 东京热加勒比一区二区| 国产又爽又猛又粗又色对黄 | 欧美一二三区高清不卡| 日韩一区二区三区久久| 日韩一级免费中文字幕视频| 日本午夜福利视频免费观看| 精品人妻一区二区三区免费看| 国产精品午夜福利免费在线| 福利在线午夜绝顶三级| 日本少妇中文字幕不卡视频| 最新69国产精品视频| 成人免费高清在线一区二区| 午夜久久久精品国产精品|