阿里巴巴 AI 「看圖回答」 測驗擊敗微軟、臉書、特斯拉,準確率還首次超越人類!
陳宜伶
2021-08-25
看圖回答問題是人類生活及溝通的基本條件,但是對 AI 來說卻是一項高難度任務。
阿里巴巴達摩學院打造出來的 AI 語言模型 AliceMind,幾天前首度打破圖像問答(VQA)世界紀錄,答題準確率甚至超越人類基準,並且擊敗同樣有參加挑戰的微軟、FB 隊伍,象徵達摩學院的人工智慧技術邁出關鍵一步。
VQA 挑戰是什麼?
圖像問答(Visual Question Answering)挑戰的緣起,是因為國際電腦視覺與技術辨識大會 (Conference on Computer Vision and Pattern Recognition,CVPR)希望鼓勵企業攻克 AI 多模態機器學習(MultiModal Machine Learning)的難題,因此從 2015 年開辦 VQA 挑戰賽,吸引來自世界各地的網路企業、科研單位參賽。
今年的 VQA 挑戰賽和往年一樣,題庫包含了超過 25 萬張真實照片,總共有 110 萬道題目。這些題目會考驗 AI 是否能辨別圖像,比如說在一張人群的照片中算出有幾個兒童、或是在圖片中辨認出書桌上的車鑰匙,進而推測房間主人是有車的。
VQA 技術已經被廣泛導入阿里巴巴平台,像是它的 AI 客服機器人「小蜜」(Alime)就已經被淘寶、天貓商家等電商平台採用。消費者輸入問題後,AI 客服會根據商品資訊和顧客問題給出答案。
另一方面,VQA 技術不僅能運用在電商,還可用於醫學圖像辨識,以及電動車的智慧駕駛分析。
阿里巴巴的 AI 模型為何成績能夠超越人類?
這幾年人工智慧(AI)逐漸滲透到各行業,也推動更多科技革命,AI 技術逐漸成為企業數位轉型、對抗疫情,並讓經濟重返正軌的重要力量。
由阿里巴巴達摩學院打造的 AI 深度語言模型系統 AliceMind 在這次的 VQA 測驗中,答題準確率拿到 81.26%,首次超越了人類答題的準確率 80.83% ,更讓馬雲投資的達摩學院在 AI 發展上取得重大進展。
AliceMind 採用了多種專有技術,包括多樣化的視覺表示(diverse visual representations)、「多模態」預訓練語言模型(multimodal pretrained language models)、「跨模態」語義融合和對齊技術( adaptive cross-modal semantic fusion and alignment technology)。這些技術不僅可以讓阿里巴巴的 AI 理解問題並分析圖像,還可以讓 AI 用近似人類的語感回答問題。
阿里巴巴達摩院自然語言處理(NLP)負責人 Si Luo 表示:「這代表我們在『機器學習』領域又取得了一個重要里程碑,AliceMind 在視覺與文本的『多模態』理解及推理上,測試分數媲美人類認知水準,彰顯了我們研發 AI 的努力成效。」
打造出這款 AI 模型的達摩學院是什麼來歷?
2017 年,馬雲認為阿里巴巴應該要把眼光放遠,致力解決未來世界經濟、社會等問題,在此願景下成立了研究單位「達摩學院」( DAMO Academy),號稱要在 3 年投入超過 1000 億人民幣,將重點放在基礎科學和顛覆式技術創新研究上。
Si Luo 表示,人工智慧分為運算智慧、感知智慧、認知智慧及創造智慧 4 個層次。這次 AliceMind 參與的 VQA 測試內容屬於認知智慧部份。
負責人也補充說,這不代表有一天我們會被機器人取代,反而這些智慧機器可以用來輔助我們的日常工作和生活,因此人們可以很專注在他們擅長的創作上。
資料來源:https://buzzorange.com/techorange/2021/08/25/vqa-ai-alibaba/
同時也有10000部Youtube影片,追蹤數超過2,910的網紅コバにゃんチャンネル,也在其Youtube影片中提到,...
「cvpr」的推薦目錄:
- 關於cvpr 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
- 關於cvpr 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
- 關於cvpr 在 TechOrange 科技報橘 Facebook 的最佳貼文
- 關於cvpr 在 コバにゃんチャンネル Youtube 的最佳解答
- 關於cvpr 在 大象中醫 Youtube 的精選貼文
- 關於cvpr 在 大象中醫 Youtube 的最讚貼文
- 關於cvpr 在 CVPR 2021 - Facebook Research 的評價
- 關於cvpr 在 CVPR 2021 论文和开源项目合集(Papers with Code) - GitHub 的評價
- 關於cvpr 在 CVPR 2021 Workshop on Event-based Vision - GitHub Pages 的評價
- 關於cvpr 在 CVPR 2021 awards given to Facebook AI researchers 的評價
- 關於cvpr 在 CVPR 2021 Workshop on Event-based Vision - Welcome 的評價
- 關於cvpr 在 作者CVPR 的總覽(PTT發文,留言,暱稱) 的評價
- 關於cvpr 在 [問卦] 讀完一篇CVPR發現其實是廢文該怎麼辦? - PTT 熱門 ... 的評價
- 關於cvpr 在 Re: [問卦] 讀完一篇CVPR發現其實是廢文該怎麼辦? | PTT評價 的評價
cvpr 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
特斯拉展示超級電腦:分析自動駕駛數據
作者 愛范兒 | 發布日期 2021 年 06 月 25 日 8:00 |
國際電腦視覺和模式辨識會議(CVPR)週末的演講,特斯拉人工智慧團隊的負責人安德烈‧卡帕西(Andrej Karpathy)展示一台超級電腦。
電腦採用 5,760 個算力為 321TFLOPS 的輝達 A100 顯卡,組成 720 個節點,總算力突破 1.8EFLOPS,10PB 儲存空間。特斯拉超級電腦將用於處理車輛自動駕駛數據。
自動駕駛領域,特斯拉一直都逆勢而行。Waymo 等大部分公司致力自動駕駛團隊大力發展光達,以做到自動駕駛時,特斯拉堅持使用攝影鏡頭,以視覺辨識為主。特斯拉透過車內各感測器收集駕駛及車輛數據,上傳給超級電腦,人工智慧軟體分析數據,並學習如何像人類駕駛。
如今路上行駛的特斯拉多不勝數,要處理所有特斯拉的海量數據,需要強大算力。安德烈展示的超級電腦已開始使用,據稱算力接近世界第五大超級電腦 Selene。
安德烈受訪時承認,基於視覺的自動駕駛將比光達自動駕駛更難實現,後者使用雷射辨識周圍障礙,特斯拉的攝影鏡頭,某些情況下也面臨風險,譬如大霧、大雨、大雪。特斯拉早期的全自動駕駛測試期間,系統常判斷錯誤,需駕駛手動干預。
然而安德雷認為,為特斯拉加入光達可能不是太好的選擇:
同時使用光達與攝影鏡頭會帶來一個問題,即當兩者看到的內容不一樣時,系統可能難以判斷哪個感測器才正確。
倘若專注傳統攝影鏡頭,特斯拉可透過改善電腦視覺,訓練電腦應付行人與過往車輛的不可預測行為,因此不必使用昂貴的光達。
有趣的是,有人發現特斯拉在美國佛州棕櫚灘進行光達版車測試。照片可看到一輛搭載光達的特斯拉 Model Y。也有消息稱特斯拉是使用 Liminar 光達驗證基於攝影鏡頭的全自動駕駛可靠性。
特斯拉已有數百萬輛電動車上路,提供有用數據,超級電腦能根據這些數據分析與訓練。但特斯拉 Autopilot 自動輔助駕駛系統還遠未達「自動駕駛」程度,故此方案的正確與否還有待觀察。
資料來源:https://technews.tw/2021/06/25/tesla-shows-off-supercomputer/
cvpr 在 TechOrange 科技報橘 Facebook 的最佳貼文
1998年生、17 歲考進「常春藤」盟校-康奈爾大學、大二選修博士課程,好期待他要挑戰的下一個項目啊!
cvpr 在 CVPR 2021 论文和开源项目合集(Papers with Code) - GitHub 的推薦與評價
CVPR 2021 论文和开源项目合集. Contribute to amusi/CVPR2021-Papers-with-Code development by creating an account on GitHub. ... <看更多>
cvpr 在 CVPR 2021 Workshop on Event-based Vision - GitHub Pages 的推薦與評價
CVPR 2021 Workshop on Event-based Vision. imagen. June 19, 2021, Saturday. 1st day of CVPR. Virtual workshop. Starts at 10 am Eastern Time; 4 pm Europe Time ... ... <看更多>
cvpr 在 CVPR 2021 - Facebook Research 的推薦與評價
We seek to advance the state-of-the-art in computer vision through fundamental and applied research in open collaboration with CVPR's dynamic scientific ... ... <看更多>