時間:2020-06-29
業界普遍認為,視頻分割技術將成為線上會議、直播、自動駕駛、影視制作等場景的標配。例如直播場景使用阿里 AI 算法,可以實現一秒鐘替換背景;在自動駕駛中,視頻分割也是自動駕駛系統識別障礙物的關鍵技術。因此,視頻分割技術將會和我們更加息息相關。
近日,全球計算機視覺頂會 CVPR 2020(CVPR,即 IEEE 國際計算機視覺與模式識別會議)公布各大挑戰賽結果,阿里巴巴(以下稱“阿里”)獲得四項比賽的世界冠軍,其中,在難度最高的 DAVIS( Densely Annotated Video Segmentation,密集標注視頻分割 )挑戰賽中,阿里提出了可以精準預測視頻目標位置的方法,并且首次以超過 80 分的成績奪得第一名。
CVPR 是 AI 領域規模最大的會議,被譽為計算機視覺領域“奧斯卡”,其范圍涵蓋計算機視覺領域的前瞻學術研究和工業應用,會議的研究成果體現著視覺 AI 領域研究的趨勢。由于視頻會議、直播等應用逐漸普及,2020 年頂級科技公司的研究成果逐步從圖像延伸到視頻領域,涉及視頻壓縮、視頻分割、三維視覺等領域。
和圖像識別不同,AI 分析理解視頻的技術門檻更高,長期以來,業界在視頻 AI 技術的研究上鮮有重大突破。以 CVPR 會議難度最高的比賽之一 DAVIS 為例,該比賽需要參賽團隊精準處理復雜視頻中物體快速運動、外觀變化、遮擋等信息。過去幾年,全球頂級科技公司在該比賽中的成績從未突破 80 分。
據介紹,阿里參加的四項比賽均為視頻技術領域。在 DAVIS 挑戰賽中,阿里達摩院團隊率先實現突破,力壓悉尼科技大學 ReLER 實驗室,以 84.1 的分數獲得了第一名,比 2019 年第一名的中興和華中科技大學聯合團隊高出 7.4 分。

圖 | 阿里 AI 以 84.1 分的成績斬獲 DAVIS 比賽第一名
具體來說,阿里參與的是 DAVIS 半監督賽道。要求是假設用戶不與算法交互以獲取分割掩膜,輸入值只給出第一幀的正確掩膜,算法需要在后續每一幀中實現對單個或多個目標的分割,也就是要把目標的像素標注出來。
如上圖所示,衡量分割準確率有兩種標準,分別以 J 和 F 為代號,代表區域相似度(Region Similarity)和輪廓準確度(Contour Accuracy)。前者測量正確像素的標注數量,后者測量目標輪廓的分割有多精準。最終成績是 J 和 F 標準的綜合分。
公開資料顯示,在現有的 STMVOS 方法(利用空間 - 時間記憶網絡分割視頻目標)基礎上,阿里提出了一種全新的空間約束方法,打破了傳統 STM 方法缺乏時序性且會受到相似目標誤導的瓶頸,可以讓系統基于視頻前一幀畫面預測目標物體下一幀的位置;此外,阿里還引入了語義分割中的精細化分割微調模塊,大幅提高了分割精細程度。最終,精準識別動態目標的輪廓邊界,并且與背景進行分離,實現像素級目標分割。

圖 | 阿里 AI 可以基于視頻前一幀畫面,精準預測目標物體下一幀的位置
作為對比,今年 DAVIS 挑戰賽第二名 ReLER 實驗室提出的 CFBI + 算法,原本領先基礎 STMVOS 算法近 10 分,但阿里團隊使用空間約束方法、新型訓練策略和微調等技術,將基礎算法的表現大幅提高了 12 分,摘下桂冠。
在另外兩個比賽,HACS 人類動作短視頻識別和 DeepFashion 服裝識別中,阿里團隊也獲得了第一名。
除獲得四項比賽冠軍,阿里還有 17 篇論文入選 CVPR 2020,其中包括一篇自動駕駛領域的研究成果,該論文提出了一個通用、高性能的自動駕駛檢測器,首次實現 3D 物體檢測精度與速度的兼得,可以有效提升自動駕駛系統安全性能。
目前,阿里視覺 AI 技術已在全球率先實現大規模落地。例如,城市大腦、拍立淘、優酷視頻等阿里集團內部業務場景均已大規模使用該技術;阿里 CT 影像 AI 已經服務全球 600 多家醫療機構,疫情期間已完成 50 余萬例病例臨床診斷。
(來源:DeepTech深科技公眾號)