當前位置:偏方大全网 - 藥品查詢 - 目標檢測 論文推薦——基於深度神經網絡的目標檢測

目標檢測 論文推薦——基於深度神經網絡的目標檢測

原文: Scalable Object Detection using Deep Neural Networks——學術範

最近,深度卷積神經網絡在許多圖像識別基準上取得了最先進的性能,包括ImageNet大規模視覺識別挑戰(ILSVRC-2012)。在定位子任務中獲勝的模型是壹個網絡,它預測了圖像中每個對象類別的單個邊界框和置信度得分。這樣的模型捕獲了圍繞對象的整幅圖像上下文,但如果不天真地復制每個實例的輸出數量,就無法處理圖像中同壹對象的多個實例。在這篇論文中提出了壹個顯著性啟發的神經網絡檢測模型,它預測了壹組與類無關的邊界框,每個框有壹個分數,對應於它包含任何感興趣的對象的可能性。該模型自然地為每個類處理數量可變的實例,並允許在網絡的最高級別上進行跨類泛化。

目標檢測是計算機視覺的基本任務之壹。壹個解決這個問題的通用範例是訓練在子圖像上操作的對象檢測器,並在所有的場所和尺度上以詳盡的方式應用這些檢測器。這壹範例被成功地應用於經過區別訓練的可變形零件模型(DPM)中,以實現檢測任務的最新結果。對所有可能位置和尺度的窮舉搜索帶來了計算上的挑戰。隨著類數量的增加,這個挑戰變得更加困難,因為大多數方法都訓練每個類單獨的檢測器。為了解決這個問題,人們提出了多種方法,從檢測器級聯到使用分割提出少量的對象假設。

關於對象檢測的文獻非常多,在本節中,我們將重點討論利用類不可知思想和解決可伸縮性的方法。

許多提出的檢測方法都是基於基於部件的模型,最近由於有區別學習和精心設計的特征,已經取得了令人印象深刻的性能。然而,這些方法依賴於在多個尺度上詳盡地應用零件模板,這是非常昂貴的。此外,它們在類的數量上是可伸縮的,這對像ImageNet這樣的現代數據集來說是壹個挑戰。

為了解決前壹個問題,Lampert等人使用分支綁定策略來避免計算所有可能的對象位置。為了解決後壹個問題,Song et al.使用了壹個低維部件基,在所有對象類中***享。基於哈希算法的零件檢測也取得了良好的結果。

另壹種不同的工作,與我們的工作更接近,是基於對象可以本地化的想法,而不必知道它們的類。其中壹些方法建立在自底向上無階級分割[9]的基礎上。通過這種方式得到的片段可以使用自上而下的反饋進行評分。基於同樣的動機,Alexe等人使用壹種廉價的分類器對對象假設是否為對象進行評分,並以這種方式減少了後續檢測步驟的位置數量。這些方法可以被認為是多層模型,分割作為第壹層,分割分類作為後續層。盡管它們編碼了已證明的感知原理,但我們將表明,有更深入的模型,充分學習可以導致更好的結果。

最後,我們利用了DeepLearning的最新進展,最引人註目的是Krizhevsky等人的工作。我們將他們的邊界盒回歸檢測方法擴展到以可擴展的方式處理多個對象的情況。然而,基於dnn的回歸已經被Szegedy等人應用到對象掩模中。最後壹種方法實現了最先進的檢測性能,但由於單個掩模回歸的成本,不能擴展到多個類。

我們的目標是通過預測壹組表示潛在對象的邊界盒來實現壹種與類無關的可擴展對象檢測。更準確地說,我們使用了深度神經網絡(DNN),它輸出固定數量的包圍盒。此外,它為每個盒子輸出壹個分數,表示這個盒子包含壹個對象的網絡信任度。

為了形式化上述思想,我們將i-thobject框及其相關的置信度編碼為最後壹網層的節點值:

Bounding box: 我們將每個框的左上角和右下角坐標編碼為四個節點值,可以寫成vectorli∈R4。這些坐標是歸壹化的w. r. t.圖像尺寸,以實現圖像絕對尺寸的不變性。每個歸壹化坐標是由最後壹層的線性變換產生的。

Confidence: 置信度:包含壹個對象的盒子的置信度得分被編碼為單個節點valueci∈[0,1]。這個值是通過最後壹個隱藏層的線性變換產生的,後面跟著壹個sigmoid。

我們可以組合邊界盒位置sli,i∈{1,…K}為壹個線性層。同樣,我們可以將所有置信區間ci,i∈{1,…K}作為壹個s型層的輸出。這兩個輸出層都連接到最後壹個隱藏層

在推理時,我們的算法生成kbound盒。在我們的實驗中,我們使用ek = 100和K= 200。如果需要,我們可以使用置信分數和非最大抑制在推理時獲得較少數量的高置信框。這些盒子應該代表對象。因此,它們可以通過後續的分類器進行分類,實現目標檢測。由於盒子的數量非常少,我們可以提供強大的分類器。在我們的實驗中,我們使用另壹個dnn進行分類。

我們訓練壹個DNN來預測每個訓練圖像的邊界框及其置信度得分,以便得分最高的框與圖像的groundtruth對象框很好地匹配。假設對於壹個特定的訓練例子,對象被標記為boundingboxesgj,j∈{1,…,M}。在實踐中,pre- dictionary的數量遠遠大於groundtruthboxm的數量。因此,我們試圖只優化與地面真實最匹配的預測框子集。我們優化他們的位置,以提高他們的匹配度,最大化他們的信心。與此同時,我們將剩余預測的置信度最小化,這被認為不能很好地定位真實對象。為了達到上述目的,我們為每個訓練實例制定壹個分配問題。Wexij∈{0,1}表示賦值:xij= 1,如果第i個預測被賦值給第j個真對象。這項任務的目標可以表示為

其中,我們使用標準化邊界框坐標之間的el2距離來量化邊界框之間的不同。此外,我們希望根據分配x優化盒子的可信度。最大化指定預測的置信度可以表示為

?最終的損失目標結合了匹配損失和信心損失

受式1的約束。α平衡了不同損失條款的貢獻。

對於每個訓練例子,我們通過解決壹個最佳的賦值x*的預測到真實的盒子

約束執行賦值解決方案。這是二部匹配的壹種變體,是壹種多項式復雜度匹配。在我們的應用程序中,匹配是非常便宜的——每幅圖像中標記的對象的數量少於壹打,而且在大多數情況下只有很少的對象被標記。然後,通過反向傳播優化網絡參數。例如,反向傳播算法的壹階導數計算w、r、t、l和c

盡管上述定義的損失在原則上是足夠的,但三次修改使其有可能更快地達到更好的準確性。第壹個修改是對地面真實位置進行聚類,並找到這樣的聚類/質心,我們可以使用這些聚類/質心作為每個預測位置的先驗。因此,鼓勵學習算法為每個預測位置學習壹個殘差到壹個先驗。

第二個修改涉及到在匹配過程中使用這些先驗:不是將N個groundtruth位置與K個預測進行匹配,而是在K個先驗和groundtruth之間找到最佳匹配。壹旦匹配完成,就會像之前壹樣計算目標的置信度。此外,位置預測損失也不變:對於任何壹對匹配的(目標,預測)位置,其損失定義為groundtruth和對應於匹配先驗的坐標之間的差值。我們把使用先驗匹配稱為先驗匹配,並假設它促進了預測的多樣化。

?需要註意的是,盡管我們以壹種與類無關的方式定義了我們的方法,但我們可以將它應用於預測特定類的對象盒。要做到這壹點,我們只需要在類的邊框上訓練我們的模型。此外,我們可以預測每個類的kbox。不幸的是,這個模型的參數數量會隨著類的數量線性增長。此外,在壹個典型的設置中,給定類的對象數量相對較少,這些參數中的大多數會看到很少有相應梯度貢獻的訓練示例。因此,我們認為我們的兩步過程——首先本地化,然後識別——是壹個更好的選擇,因為它允許使用少量參數利用同壹圖像中多個對象類型的數據

我們使用的本地化和分類模型的網絡架構與[10]使用的網絡架構相同。我們使用Adagrad來控制學習速率衰減,128的小批量,以及使用多個相同的網絡副本進行並行分布式訓練,從而實現更快的收斂。如前所述,我們在定位損失中使用先驗——這些是使用訓練集上的均值來計算的。我們還使用α = 0.3來平衡局部化和置信度損失。定位器可以輸出用於推斷的種植區以外的坐標。坐標被映射和截斷到最後的圖像區域。另外,使用非最大抑制對盒進行修剪,Jaccard相似度閾值為0.5。然後,我們的第二個模型將每個邊界框分類為感興趣的對象或“背景”。為了訓練我們的定位器網絡,我們從訓練集中生成了大約3000萬幅圖像,並對訓練集中的每幅圖像應用以下步驟。最後,樣品被打亂。為了訓練我們的本地化網絡,我們通過對訓練集中的每壹幅圖像應用以下步驟,從訓練集中生成了大約3000萬幅圖像。對於每幅圖像,我們生成相同數量的平方樣本,使樣本總數大約為1000萬。對於每幅圖像,樣本被桶狀填充,這樣,對於0 - 5%、5 - 15%、15 - 50%、50 - 100%範圍內的每個比例,都有相同數量的樣本,其中被包圍框覆蓋的比例在給定範圍內。訓練集和我們大多數超參數的選擇是基於過去使用非公開數據集的經驗。在下面的實驗中,我們沒有探索任何非標準數據生成或正則化選項。在所有的實驗中,所有的超參數都是通過對訓練集。

Pascal Visual Object Classes (VOC)挑戰是最常用的對象檢測算法基準。它主要由復雜的場景圖像組成,其中包含了20種不同的對象類別的邊界框。在我們的評估中,我們關註的是2007版VOC,為此發布了壹個測試集。我們通過培訓VOC 2012展示了結果,其中包含了大約。11000張圖片。我們訓練了壹個100框的定位器和壹個基於深度網絡的分類器。

我們在壹個由1000萬作物組成的數據集上訓練分類器,該數據集重疊的對象至少為0.5 jaccard重疊相似度。這些作物被標記為20個VOC對象類中的壹個。?2000萬負作物與任何物體盒最多有0.2個Jaccard相似度。這些作物被貼上特殊的“背景”類標簽。體系結構和超參數的選擇遵循。

在第壹輪中,定位器模型應用於圖像中最大-最小中心方形作物。作物的大小調整到網絡輸入大小is220×220。單次通過這個網絡,我們就可以得到上百個候選日期框。在對重疊閾值為0.5的非最大抑制後,保留評分最高的前10個檢測項,並通過21路分類器模型分別通過網絡進行分類。最終的檢測分數是給定盒子的定位分數乘以分類器在作物周圍的最大方形區域上評估的分數的乘積。這些分數通過評估,並用於計算精確查全曲線。

首先,我們分析了本地化器在隔離狀態下的性能。我們給出了被檢測對象的數量,正如Pascal檢測標準所定義的那樣,與生成的包圍框的數量相對比。在圖1中,我們展示了使用VOC2012進行訓練所獲得的結果。此外,我們通過使用圖像的最大中心面積(max-center square crop)作為輸入以及使用兩個尺度(second scale)來給出結果:最大中心面積(max-center crop)的第二個尺度(select3×3windows的大小為圖像大小的60%)

正如我們所看到的,當使用10個邊界框的預算時,我們可以用第壹個模型本地化45.3%的對象,用第二個模型本地化48%的對象。這顯示出比其他報告的結果更好的性能,例如對象度算法達到42%[1]。此外,這個圖表顯示了在不同分辨率下觀察圖像的重要性。雖然我們的算法通過使用最大中心作物獲得了大量的對象,但當使用更高分辨率的圖像作物時,我們獲得了額外的提升。進壹步,我們用21-way分類器對生成的包圍盒進行分類,如上所述。表1列出了VOC 2007的平均精度(APs)。達到的平均AP是0.29,與先進水平相當。註意,我們的運行時間復雜度非常低——我們只使用top10框。示例檢測和全精度召回曲線分別如圖2和圖3所示。值得註意的是,可視化檢測是通過僅使用最大中心方形圖像裁剪,即使用全圖像獲得的。然而,我們設法獲得了相對較小的對象,例如第二行和第二列的船,以及第三行和第三列的羊。

在本工作中,我們提出了壹種新的方法來定位圖像中的對象,該方法可以預測多個邊界框的時間。該方法使用深度卷積神經網絡作為基本特征提取和學習模型。它制定了壹個能夠利用可變數量的groundtruth位置的多箱定位成本。在“壹個類壹個箱”方法的情況下,對1000個盒子進行非max-suppression,使用與給定圖像中感興趣的DeepMulti-Box方法相同的準則,並學習在未見圖像中預測這些位置。

我們在VOC2007和ILSVRC-2012這兩個具有挑戰性的基準上給出了結果,在這兩個基準上,所提出的方法具有競爭力。此外,該方法能夠很好地預測後續分類器將探測到的位置。我們的結果表明,deepmultibox的方法是可擴展的,甚至可以在兩個數據集之間泛化,就能夠預測感興趣的定位,甚至對於它沒有訓練的類別。此外,它能夠捕獲同壹類物體的多種情況,這是旨在更好地理解圖像的算法的壹個重要特征。

在未來,我們希望能夠將定位和識別路徑折疊到壹個單壹的網絡中,這樣我們就能夠在壹個通過網絡的壹次性前饋中提取位置和類標簽信息。即使在其當前狀態下,雙通道過程(本地化網絡之後是分類網絡)也會產生5-10個網絡評估,每個評估的速度大約為1個CPU-sec(現代機器)。重要的是,這個數字並不與要識別的類的數量成線性關系,這使得所提出的方法與類似dpm的方法非常有競爭力。

  • 上一篇:安徽監獄系統公務員筆試多少分進面試?90%的監獄工作人員有可能考69.550分嗎?
  • 下一篇:特壹藥業的未來展望
  • copyright 2024偏方大全网