Meta帶來GPT-3時刻！又一個行業會被徹底顛覆？

8f9976e71c75501a3e7241dd8894bbc2

今天，Meta發布史上首個圖像分割基礎模型SAM，將NLP領域的prompt範式引進計算機視覺（CV），讓模型可以通過prompt一鍵摳圖。網友直呼：CV不存在了!

就在剛剛，Meta AI發布了Segment Anything Model（SAM）——第一個圖像分割基礎模型。

SAM能從照片或視頻中對任意對象實現一鍵分割，並且能夠零樣本遷移到其他任務。

整體而言，SAM遵循了基礎模型的思路：

一種非常簡單但可擴展的架構，可以處理多模態提示：文本、關鍵點、邊界框。

直觀的標注流程，與模型設計緊密相連。

一個數據飛輪，允許模型自舉到大量未標記的圖像。

而且，毫不誇張地說，SAM已經學會了「物體」的一般概念，甚至對於未知物體、不熟悉的場景（例如水下和顯微鏡下）以及模糊的案例也是如此。

此外，SAM還能夠泛化到新任務和新領域，從業者並不需要自己微調模型了。

d726c04ca23e45e8b1e2625f43f4015b

論文地址：https://ai.facebook.com/research/publications/segment-anything/

最強大的是，Meta實現了一個完全不同的CV範式，你可以在一個統一框架prompt
encoder內，指定一個點、一個邊界框、一句話，直接一鍵分割出物體。

1a807ebce671bb852cb95d0ffeab2a20

對此，騰訊AI算法專家金天表示，「NLP領域的prompt範式，已經開始延展到CV領域了。而這一次，可能徹底改變CV傳統的預測思路。這一下你可以真的可以用一個模型，來分割任意物體，並且是動態的！」

英偉達AI科學家Jim Fan對此更是讚歎道：我們已經來到了計算機視覺領域的「GPT-3時刻」！

所以，CV真的不存在了？

SAM：一鍵「切出」任何圖像中的所有對象

Segment Anything是致力於圖像分割的第一個基礎模型。

分割（Segmentation）是指識別哪些圖像像素屬於一個對象，一直是計算機視覺的核心任務。

但是，如果想為特定任務創建準確的分割模型，通常需要專家進行高度專業化的工作，這個過程需要訓練AI的基礎設施，和大量仔細標注的域內數據，因此門檻極高。

為了解決這個問題，Meta提出了一個圖像分割的基礎模型——SAM。這個接受了多樣化數據訓練的可提示模型，不僅能適應各種任務，而且操作起來也類似於在NLP模型中使用提示的方式。

SAM模型掌握了「什麽是對象」這個概念，可以為任何圖像或視頻中的任何對象生成掩碼，即使是它在訓練中沒有見過的對象。

SAM具有如此廣泛的通用性，足以涵蓋各種用例，不需要額外訓練，就可以開箱即用地用於新的圖像領域，無論是水下照片，還是細胞顯微鏡。也即是說，SAM已經具有了零樣本遷移的能力。

42ad63b74f05df259d364157620e23a4

Meta在博客中興奮地表示：可以預計，在未來，在任何需要在圖像中查找和分割對象的應用中，都有SAM的用武之地。

SAM可以成為更大的AI係統的一部分，對世界進行更通用的多模態理解，比如，理解網頁的視覺和文本內容。

在AR/VR領域，SAM可以根據用戶的視線選擇對象，然後把對象「提升」為 3D。

對於內容創作者，SAM可以提取圖像區域進行拚貼，或者視頻編輯。

SAM還可以在視頻中定位、跟蹤動物或物體，有助於自然科學和天文學研究。

4cdc2aa72fec03333d40c744bbfdc2f6

通用的分割方法

一種是交互式分割，可以分割任何類別的對象，但需要一個人通過迭代微調掩碼。

第二種是自動分割，可以分割提前定義的特定對象，但訓練過程需要大量的手動標注對象（比如要分割出貓，就需要成千上萬個例子）。

總之，這兩種方式都無法提供通用、全自動的分割方法。

而SAM可以看作這兩種方法的概括，它可以輕鬆地執行交互式分割和自動分割。

在模型的可提示界麵上，隻要為模型設計正確的提示（點擊、框、文本等），就可以完成廣泛的分割任務。

另外，SAM在包含超過10億個掩碼的多樣化、高質量數據集上進行訓練，使得模型能夠泛化到新的對象和圖像，超出其在訓練期間觀察到的內容。因此，從業者不再需要收集自己的細分數據，為用例微調模型了。

這種能夠泛化到新任務和新領域的靈活性，在圖像分割領域尚屬首次。

9205f7a17c557c353a133abe8ee8e353

(1) SAM 允許用戶通過單擊一下，或交互式單擊許多點，來分割對象，還可以使用邊界框提示模型。

(2) 在麵對被分割對象的歧義時，SAM可以輸出多個有效掩碼，這是解決現實世界中分割問題的必備能力。

(3) SAM 可以自動發現、屏蔽圖像中的所有對象。(4)
在預計算圖像嵌入後，SAM可以實時為任何提示生成分割掩碼，允許用戶與模型進行實時交互。

工作原理

研究人員訓練的SAM可以針對任何提示返回有效的分割掩碼。提示可以是前景/背景點、粗略的框或掩碼、自由形式的文本，或者總體上任何指示圖像中需要分割的信息。

有效掩碼的要求僅僅意味著即使在提示模糊且可能指代多個對象的情況下（例如，襯衫上的一個點可能表示襯衫或者穿襯衫的人)
，輸出應該是其中一個對象的合理掩碼。

47edd33e9c1297887246dce29c5cbd19

研究人員觀察到，預訓練任務和交互式數據收集對模型設計施加了特定的約束。

特別是，該模型需要在網絡瀏覽器中CPU上實時運行，以便讓標準人員能夠高效實時與SAM互動進行標注。

雖然運行時間的約束，意味著質量與運行時間之間需要權衡，但研究人員發現，在實踐中，簡單的設計可以取得良好的效果。

SAM的圖像編碼器為圖像產生一次性嵌入，而輕量級解碼器將任何提示實時轉換為矢量嵌入。然後將這兩個信息源在一個預測分割掩碼的輕量級解碼器中結合起來。

在計算出圖像嵌入之後，SAM可以在短短50毫秒內生成一段圖像，並在網絡瀏覽器中給出任何提示。

8318d73ecaf8027440cc5d2966c9992b

最新SAM模型在256張A100上訓練了68小時（近5天）完成。

d11664a61e251dddb1984f18ba44148d

項目演示

多種輸入提示

在圖像中指定要分割的內容的提示，可以實現各種分割任務，而無需額外的訓練。

2dc68da3f781ca4637f872a88671eb69

用互動點和方框作為提示

e1fc5bc6e351ec3c5322b7017e1cd076

自動分割圖像中的所有元素

c9ece68d7377a88de48bf68f164daab5

為模棱兩可的提示生成多個有效的掩碼

SAM可以接受來自其他係統的輸入提示。

例如，根據AR/VR頭顯傳來的用戶視覺焦點信息，來選擇對應的物體。Meta通過發展可以理解現實世界的AI，恰恰為它未來元宇宙之路鋪平道路。

或者，利用來自物體檢測器的邊界框提示，實現文本到物體的分割。

ab7eceaaaa658fb8aa0ade99aa6cfed5

可擴展的輸出

輸出掩碼可以作為其他AI係統的輸入。

例如，物體的mask可以在視頻中被跟蹤，通過成像編輯應用程序，變成3D，或用於拚貼等創造性任務。

6503e372b82e98e807b606d3d3a7be42

零樣本的泛化

SAM學會了關於物體是什麽的一般概念——這種理解使其能夠對不熟悉的物體和圖像進行零樣本概括，而不需要額外訓練。

a0d1a74218785fdc928f44963f683c70

78a4f6a422a3e67fbaf967e5a057a5cf

031fd576cc73af578c2de43437a907a2

各種評測

選擇Hover&Click，點Add Mask後就出現綠點，點Remove
Area後出現紅點，吃蘋果的花花立刻就被圈出來了。

aba43cf32bd95bf259fc93cba5649552

而在Box功能中，簡單框選一下，就立馬完成識別。

e102147ee27097ed6a5372bff31c35d1

點Everything後，所有係統識別出的對象立刻全部被提取出來。

17a7d9f9a666d2c2a8666a135056749c

選Cut-Outs後，秒得一個三角團子。

1d75f8315b151abbebdb26f3e8e3ade2

SA-1B數據集：1100萬張圖像，11億個掩碼

除了發布的新模型，Meta還發布了迄今為止最大的分割數據集SA-1B。

這個數據集由1100萬張多樣化、高分辨率、保護隱私的圖像，以及11億個高質量分割掩碼組成。

數據集的整體特性如下：

圖像總數: 1100萬

掩碼總數: 11億

每張圖像的平均掩碼: 100

平均圖像分辨率: 1500 × 2250 pixels

注意：圖像或掩碼標注沒有類標簽

Meta特別強調，這些數據是通過我們的數據引擎收集的，所有掩碼均由SAM完全自動生成。

有了SAM模型，收集新的分割掩碼的速度比以往任何時候都快，交互式標注一個掩碼隻需要大約14秒。

每個掩碼標注過程隻比標注邊界框慢2倍，使用最快的標注界麵，標注邊界框大約需要7秒。

與以前的大規模分割數據收集工作相比，SAM模型COCO完全手動的基於多邊形的掩碼標注快6.5倍，比以前最大的數據標注工作（也是模型輔助）快2倍。

fc77c63f19652226a51fc0c10f1aa463

然而，依賴於交互式標注掩碼並不足以創建10億多個掩碼數據集。因此，Meta構建了一個用於創建SA-1B數據集的數據引擎。

這個數據引擎有三個「齒輪」：

模型輔助標注

全自動標注與輔助標注的混合，有助於增加收集到的掩碼的多樣性

全自動掩碼創建，使數據集能夠擴展

我們的最終數據集包括超過11億個分割掩碼，這些掩碼收集在大約1100萬張授權和保護隱私的圖像上。

SA-1B比任何現有的分割數據集多出400倍的掩碼。並且通過人類評估研究證實，掩碼具有高質量和多樣性，在某些情況下，甚至在質量上可與之前規模更小、完全手動標注數據集的掩碼相媲美。

d3d8cecdedb7d0308dbecf981c509f57

SA-1B的圖片是通過來自多個國家/地區的照片提供商獲取的，這些國家/地區跨越不同的地理區域和收入水平。

雖然某些地理區域仍然代表性不足，但SA-1B比以前的分割數據集在所有地區都有更多的圖像和更好的整體代表性。

最後，Meta稱希望這些數據可以成為新數據集的基礎，這些數據集包含額外的標注，例如與每個掩模相關聯的文本描述。

RBG大神帶隊

Ross Girshick

7ed6ac544b04bd25856486a7ced7dff6

Ross
Girshick（常被稱為RBG大神）是Facebook人工智能研究院（FAIR）的一名研究科學家，他致力於計算機視覺和機器學習的研究。

2012年，Ross Girshick在Pedro Felzenszwalb的指導下獲得了芝加哥大學的計算機科學博士學位。

在加入FAIR之前，Ross是微軟研究院的研究員，也是加州大學伯克利分校的博士後，在那裏他的導師是Jitendra
Malik和Trevor Darrell。

他獲得了2017年的PAMI青年研究員獎，2017年和2021年的PAMI Mark
Everingham獎，以表彰他對開源軟件的貢獻。

眾所周知，Ross和何愷明大神一起開發了R-CNN方法的目標檢測算法。2017年，Ross和何愷明大神的Mask
R-CNN論文獲得了ICCV 2017最佳論文。

網友：CV真不存在了

Meta打造的這款CV領域的分割基礎模型，讓許多網友高呼「這下，CV是真不存在了。」

b5a0683be71377752b238a0ab208431b

Meta科學家Justin Johnson表示：「對我來說，Segment
Anything的數據引擎和ChatGPT的RLHF代表了大規模人工智能的新時代。與其從嘈雜的網絡數據中學習一切，不如巧妙地應用人類標注與大數據相結合，以釋放新的能力。監督學習強勢回歸！」

7511dba00aaa498c920799dfb6de44d5

唯一遺憾的是，SAM模型發布主要是由Ross Girshick帶隊，何愷明卻缺席了。

5f952b048ab3865b1f27f0665991126f

知友「matrix明仔」表示，這篇文章進一步證明多模態才是CV的未來，純CV是沒有明天的。

b536170e6fa4b9584f0e4a7ccc8c0982

探索更多來自華客的內容

訂閱即可透過電子郵件收到最新文章。

Meta帶來GPT-3時刻！又一個行業會被徹底顛覆？

分享此文：

相關

探索更多來自 華客 的內容

探索更多來自華客的內容