目標檢測 YOLO v1-v5 進化版

目標檢測是壹種與計算機視覺和圖像處理相關的計算機技術，用於識別圖片中的某些類型的物體，同時需要標註物體的位置。目標檢測已廣泛應用於人臉檢測、自動駕駛和視頻監控等圖像領域。

目標檢測中常見的方法分為兩類：壹階段法和兩階段法。壹階段法首先輸入圖像，然後輸出邊界框（bbox）和分類標簽，由壹個網絡完成，主要以 YOLO 和 SSD 為代表。兩階段法以 Faster -RCNN 為代表，RCNN 在輸入圖像後首先生成區域建議，然後輸入分類器進行分類，這兩個任務由不同的網絡完成。

其中，YOLO 目標檢測是壹個突出而優秀的算法，它代表著 "you only look once"（妳只看壹次），意思是只需要瀏覽壹次就能識別圖片中物體的類別和位置，完美地平衡了檢測速度和準確率之間的關系。YOLO 也從最初的 YOLO v1 演進到最新的 YOLO v5.

2015 年，YOLO v1 第壹版提出，YOLO 借鑒了 GoogleNet，提出了 Darknet 網絡。Darknet 是壹個用 C 和 CUDA 編寫的開源神經網絡框架，它用 1x1 卷積層 + 3x3 卷積層取代了 GoogleNet 的 Inception 模塊。初始模塊。該網絡由 24 個卷積層組成，其中 2 層為全連接層，如圖 1 所示：

YOLO v1 的框架如圖 2 所示：首先將圖像調整為 448×448，然後將圖像輸入 CNN，最後通過非最大抑制（NMS）保留最終校準幀。

YOLO v1 的核心思想是將目標檢測視為壹個回歸問題，它將圖像劃分為 SxS 網格，如果目標的中心落入某個網格單元，則該網格負責檢測目標。每個網格單元預測 B 邊框（bboxes）和類別信息。此外，每個 bbox 還需要預測 (x, y, w, h) 和置信度*** 5 值。因此，最終每個網格應預測 B 個 bboxes 和 C 個類別，最終輸出為 S x S x (5*B+C) 張量。

優點：

YOLO v2 在 YOLO v1 的基礎上進行了壹系列改進，在保持分類準確性的同時提高了目標定位準確性和召回率。首先，YOLO v2 能夠適應不同的輸入大小，並根據需要權衡檢測精度和檢測速度；其次，提出了基於分層分類的 WordTree，將檢測數據集和分類數據集混合在壹起；最後，提出了壹種可在檢測數據集和分類數據集上執行的聯合訓練方法，使用檢測數據集訓練模型的識別部分，使用分類數據集訓練模型的分類部分，並使用分類數據集擴展檢測類別。

YOLO v1 更具體的改進包括：

然而，YOLO v2 仍然無法解決同壹網格中重疊對象的問題。YOLO v3 在 YOLO v2 的基礎上繼續改進：

2020 年 4 月，YOLO v4 再次發布。它在 MS COCO 數據集上的準確率達到 43.5% AP，速度達到 65FPS，分別比 YOLO v3 提高了 10%和 12%。

YOLO v4 首先對相關工作進行了總結，並對目標檢測框架進行了拆分：

目標檢測 = 背部 + 頸部 + 頭部

此外，所有調整手段被分為兩類："免費袋 "和 "特價袋"。

YOLO v4 總結了上述各種調整技術，並從中找出最佳組合。在訓練過程中，我們驗證了 "Bag-of-Freebies "和 "Bag-of-Specials "對 YOLO v4 的影響。

在 YOLO v4 發布 40 多天後，Ultralytics 又開源了非官方的 YOLO v5，該版本完全基於 PyTorch 實現。值得註意的是，每張圖片的推理時間為 140 FPS，YOLO v5 的權重文件大小是 YOLOv4 的 1/9。YOLO v5 速度更快，體積更小！

從以上 YOLO 的發展歷程可以看出，YOLO 系列的後期發展更強調應用落地，並沒有提出非常新穎的創新點。

上一篇:吃薯片真的致癌嗎？

下一篇:妨害藥品管理罪量刑標準

裝備科技有限公司經營範圍有哪些