當前位置:偏方大全网 - 藥品查詢 - 目標檢測 YOLO v1-v5 進化版

目標檢測 YOLO v1-v5 進化版

目標檢測是壹種與計算機視覺和圖像處理相關的計算機技術,用於識別圖片中的某些類型的物體,同時需要標註物體的位置。目標檢測已廣泛應用於人臉檢測、自動駕駛和視頻監控等圖像領域。

目標檢測中常見的方法分為兩類:壹階段法和兩階段法。壹階段法首先輸入圖像,然後輸出邊界框(bbox)和分類標簽,由壹個網絡完成,主要以 YOLO 和 SSD 為代表。兩階段法以 Faster -RCNN 為代表,RCNN 在輸入圖像後首先生成區域建議,然後輸入分類器進行分類,這兩個任務由不同的網絡完成。

其中,YOLO 目標檢測是壹個突出而優秀的算法,它代表著 "you only look once"(妳只看壹次),意思是只需要瀏覽壹次就能識別圖片中物體的類別和位置,完美地平衡了檢測速度和準確率之間的關系。YOLO 也從最初的 YOLO v1 演進到最新的 YOLO v5.

2015 年,YOLO v1 第壹版提出,YOLO 借鑒了 GoogleNet,提出了 Darknet 網絡。Darknet 是壹個用 C 和 CUDA 編寫的開源神經網絡框架,它用 1x1 卷積層 + 3x3 卷積層取代了 GoogleNet 的 Inception 模塊。初始模塊。該網絡由 24 個卷積層組成,其中 2 層為全連接層,如圖 1 所示:

YOLO v1 的框架如圖 2 所示:首先將圖像調整為 448×448,然後將圖像輸入 CNN,最後通過非最大抑制(NMS)保留最終校準幀。

YOLO v1 的核心思想是將目標檢測視為壹個回歸問題,它將圖像劃分為 SxS 網格,如果目標的中心落入某個網格單元,則該網格負責檢測目標。每個網格單元預測 B 邊框(bboxes)和類別信息。此外,每個 bbox 還需要預測 (x, y, w, h) 和置信度*** 5 值。因此,最終每個網格應預測 B 個 bboxes 和 C 個類別,最終輸出為 S x S x (5*B+C) 張量。

優點:

YOLO v2 在 YOLO v1 的基礎上進行了壹系列改進,在保持分類準確性的同時提高了目標定位準確性和召回率。首先,YOLO v2 能夠適應不同的輸入大小,並根據需要權衡檢測精度和檢測速度;其次,提出了基於分層分類的 WordTree,將檢測數據集和分類數據集混合在壹起;最後,提出了壹種可在檢測數據集和分類數據集上執行的聯合訓練方法,使用檢測數據集訓練模型的識別部分,使用分類數據集訓練模型的分類部分,並使用分類數據集擴展檢測類別。

YOLO v1 更具體的改進包括:

然而,YOLO v2 仍然無法解決同壹網格中重疊對象的問題。YOLO v3 在 YOLO v2 的基礎上繼續改進:

2020 年 4 月,YOLO v4 再次發布。它在 MS COCO 數據集上的準確率達到 43.5% AP,速度達到 65FPS,分別比 YOLO v3 提高了 10%和 12%。

YOLO v4 首先對相關工作進行了總結,並對目標檢測框架進行了拆分:

目標檢測 = 背部 + 頸部 + 頭部

此外,所有調整手段被分為兩類:"免費袋 "和 "特價袋"。

YOLO v4 總結了上述各種調整技術,並從中找出最佳組合。在訓練過程中,我們驗證了 "Bag-of-Freebies "和 "Bag-of-Specials "對 YOLO v4 的影響。

在 YOLO v4 發布 40 多天後,Ultralytics 又開源了非官方的 YOLO v5,該版本完全基於 PyTorch 實現。值得註意的是,每張圖片的推理時間為 140 FPS,YOLO v5 的權重文件大小是 YOLOv4 的 1/9。YOLO v5 速度更快,體積更小!

從以上 YOLO 的發展歷程可以看出,YOLO 系列的後期發展更強調應用落地,並沒有提出非常新穎的創新點。

  • 上一篇:吃薯片真的致癌嗎?
  • 下一篇:妨害藥品管理罪量刑標準
  • copyright 2024偏方大全网