新技術讓人工智能利用二維攝像機繪制三維空間地圖研究人員開發(fā)出一種技術,能讓人工智能(AI)程序利用多臺攝像機拍攝的二維圖像更好地繪制三維空間地圖。由于該技術能有效利用有限的計算資源,因此有望改善自動駕駛汽車的導航能力。 相關論文的通訊作者、北卡羅來納州立大學電氣與計算機工程系副教授Tianfu Wu說:“大多數自動駕駛汽車都使用名為視覺轉換器的強大人工智能程序來獲取多個攝像頭拍攝的二維圖像,并創(chuàng)建車輛周圍三維空間的表示,然而,雖然這些人工智能程序各自采用了不同的方法,但仍有很大的改進空間! ![]() Tianfu Wu說:“我們的技術被稱為多視圖注意語境化(MvACon),是一種即插即用的補充技術,可以與這些現有的視覺轉換器人工智能結合使用,提高它們繪制三維空間地圖的能力。"視覺轉換器并沒有從攝像頭獲得任何額外的數據,它們只是能夠更好地利用這些數據! MvACon 通過修改一種名為 "Patch-to-Cluster attention"(PaCa)的方法來有效工作,吳和他的合作者去年發(fā)布了這種方法。PaCa 允許變換器人工智能更高效、更有效地識別圖像中的物體。 Wu說:“這里的關鍵進展是將我們在 PaCa 上展示的技術應用到使用多臺相機繪制三維空間的挑戰(zhàn)中! 為了測試 MvACon 的性能,研究人員將其與三種領先的視覺轉換器--BEVFormer、BEVFormer DFA3D 變體和 PETR 結合使用。在每種情況下,視覺轉換器都從六個不同的攝像頭收集二維圖像。在所有三種情況下,MvACon 都顯著提高了每個視覺轉換器的性能。 Wu說:“在定位物體以及這些物體的速度和方向方面,性能尤其得到了提高。"將 MvACon 添加到視覺轉換器中對計算需求的增加幾乎可以忽略不計。我們下一步的工作包括根據其他基準數據集測試 MvACon,以及根據自動駕駛車輛的實際視頻輸入進行測試。如果 MvACon 的性能繼續(xù)優(yōu)于現有的視覺轉換器,我們樂觀地認為它將被廣泛采用! 這篇題為 "Multi-View Attentive Contextualization for Multi-View 3D Object Detection "的論文將于 6 月 20 日在華盛頓州西雅圖舉行的 IEEE/CVF 計算機視覺與模式識別會議上發(fā)表。 |