Meta 推出 DINOv3:用於可擴展、高精度視覺分析的高級自監督視覺模型
簡單來說 DINOv3 是一種最先進的自監督電腦視覺模型,其單一凍結主幹可提供高解析度影像特徵,並超越多個已建立的密集預測任務中的專門解決方案。
開發人工智慧和擴增實境技術的科技公司 Meta 的研究部門, 元人工智能 推出了 DINOv3,這是一款先進的通用電腦視覺模型,採用自我監督學習 (SSL) 進行訓練,可產生高品質的視覺特徵。這是首次在多個成熟的密集預測任務(包括目標偵測和語意分割)上,單一凍結視覺主幹模型的表現超越了專用模型。
DINOv3 透過先進的 SSL 方法實現了這一性能,無需標註數據,從而減少了訓練時間和資源需求,同時允許模型擴展到 1.7 億張圖像和 7 億個參數。這種無標註方法使此模型適用於標註有限、成本高或無法取得的應用。例如,基於衛星影像預訓練的 DINOv3 主幹網路在冠層高度估算等下游任務中表現優異。
該模型有望增強目前的應用,並在醫療保健、環境監測、自動駕駛汽車、零售和製造等領域啟用新的應用,從而提高大規模視覺理解的準確性和效率。
DINOv3 現已發布,包含一整套採用商業許可的開源主幹網絡,其中包括一個基於 MAXAR 圖像訓練的衛星專用主幹網絡。此外,部分下游評估模型也已分享,以便研究人員重現和擴展結果。此外,我們還提供了範例筆記本和詳細文檔,以幫助社群立即開始使用 DINOv3。
DINOv3:透過自監督學習解鎖高影響力應用
根據 元人工智能 DINOv3 代表了自監督學習 (SSL) 領域的顯著進步,首次證明 SSL 模型在眾多任務中能夠超越弱監督模型的表現。早期版本的 DINO 在分割和單目深度估計等密集預測任務中取得了優異的成績,而 DINOv3 在此基礎上進一步提升,性能更上一層樓。
DINOv3 在原有 DINO 演算法的基礎上進行了改進,消除了對元資料輸入的需求,比以往方法減少了訓練運算量,同時仍能產生高效能的視覺基礎模型。 DINOv3 的改進使得即使在模型權重保持不變的情況下,也能在目標檢測等下游任務上取得最佳結果,無需針對特定任務進行微調,從而實現更靈活、更有效率的應用。
由於 DINO 方法不局限於任何特定影像類型,因此它可以應用於標註成本高或不切實際的各種領域。早期的迭代版本(例如 DINOv2)已利用大量未標註資料進行醫療應用,包括組織學、內視鏡檢查和影像。對於衛星和航空影像,由於資料量和複雜性導致手動標註不可行,DINOv3 允許訓練一個適用於多個衛星來源的單一骨幹模型,從而支援環境監測、城市規劃和災害應變等更廣泛的用例。
DINOv3 已展現出實際影響。世界資源研究所 (WRI) 使用該模型監測森林砍伐並指導復原工作,使當地團體能夠更好地保護生態系統。透過分析衛星影像來檢測樹木損失和土地利用變化,DINOv3 提高了氣候融資驗證的準確性,降低了交易成本,並加快了對小型地方計畫的資助。在一個案例中,使用經過衛星和航空圖像訓練的 DINOv3 將肯亞某個地區樹冠高度測量的平均誤差從 4.1 米降低到 1.2 米,使 WRI 能夠更有效地擴大對數千名農民和保護計畫的支持。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
關於 Bitget 上架 MSTR, COIN, HOOD, DFDV RWA 指數永續合約的公告
關於 Bitget 統一帳戶支援部分幣種借貸和保證金功能的公告
【首發上架】Camp Network (CAMP) 將在 Bitget 創新區和 Public Chain 區上架
關於 Bitget 上架 AAPL, GOOGL, AMZN, META, MCD RWA 指數永續合約的公告
加密貨幣價格
更多








