01 背景簡(jiǎn)介
對自動(dòng)駕駛車(chē)輛來(lái)說(shuō),高清(HD)地圖能夠幫助其提高對環(huán)境理解(感知)的準確度和導航的精度。然而,人工建圖面臨繁雜和高成本的問(wèn)題。為此,當前研究將地圖構建集成到BEV(鳥(niǎo)瞰視角)感知任務(wù)中,在BEV空間中構建柵格化HD地圖視為一個(gè)分割任務(wù),可以理解為獲得BEV特征后增加使用類(lèi)似于FCN(全卷積網(wǎng)絡(luò ))的分割頭。例如,HDMapNet通過(guò)LSS(Lift,Splat,Shoot)編碼傳感器特征,然后采用多分支FCN進(jìn)行語(yǔ)義分割、實(shí)例檢測和方向預測來(lái)構建地圖。
但目前此類(lèi)方法(基于像素的分類(lèi)方法)仍存在固有局限性,包括可能忽略特定類(lèi)別屬性,這可能導致分隔帶扭曲和中斷、行人橫道模糊以及其他類(lèi)型的偽影和噪聲,如圖1(a)所示。這些問(wèn)題不僅影響地圖的結構精度,還可能直接影響自動(dòng)駕駛系統的下游路徑規劃模塊。
▲圖1|HDMapNet,DiffMap和GroundTruth效果對比
因此,模型最好能考慮HD地圖的結構先驗信息,如車(chē)道線(xiàn)的平行和筆直特性。一些生成模型在捕捉圖像真實(shí)性和固有特性具備這樣的能力。例如,LDM(潛在擴散模型)在高保真圖像生成方面展現了巨大潛力,并在與分割增強相關(guān)的任務(wù)中證明了其有效性。另外,還可以通過(guò)引入控制變量,進(jìn)一步指導圖像的生成以滿(mǎn)足特定的控制要求。因此,將生成模型應用于捕捉地圖結構先驗,有望減少分割偽影并提高地圖構建性能。
在本文中,作者提出DiffMap網(wǎng)絡(luò )。該網(wǎng)絡(luò )首次通過(guò)使用改進(jìn)的LDM作為增強模塊,對現有的分割模型進(jìn)行地圖結構化先驗建模并支持即插即用。DiffMap不僅能通過(guò)添加和刪除噪聲的過(guò)程學(xué)習地圖先驗,還可以將BEV特征集成為控制信號,以確保輸出與當前幀觀(guān)測相匹配。實(shí)驗結果表明,DiffMap能夠有效地生成更加平滑合理的地圖分割結果,同時(shí)極大地減少了偽影,提高了整體的地圖構建性能。
02 相關(guān)工作
2.1 語(yǔ)義地圖構建
在傳統的高清(HD)地圖構建中,語(yǔ)義地圖通常是基于激光雷達點(diǎn)云手動(dòng)或半自動(dòng)標注的。一般基于SLAM的算法來(lái)構建全局一致的地圖,并手動(dòng)為地圖添加語(yǔ)義標注。然而,這種方法費時(shí)費力,同時(shí)在更新地圖方面也存在極大挑戰,從而限制了其可擴展性和實(shí)時(shí)性能。
HDMapNet提出了一種使用車(chē)載傳感器動(dòng)態(tài)構建局部語(yǔ)義地圖的方法。它將激光雷達點(diǎn)云和全景圖像特征編碼到鳥(niǎo)瞰視圖(BEV)空間,并使用三個(gè)不同的頭部進(jìn)行解碼,最終產(chǎn)生一個(gè)矢量化的局部語(yǔ)義地圖。SuperFusion專(zhuān)注于構建遠程高精度語(yǔ)義地圖,利用激光雷達深度信息增強圖像深度估計,并使用圖像特征引導遠程激光雷達特征預測。然后采用類(lèi)似于HDMapNet的地圖檢測頭獲得語(yǔ)義地圖。MachMap將任務(wù)劃分為折線(xiàn)檢測和多邊形實(shí)例分割,并使用后處理來(lái)細化掩碼以獲得最終結果。后續的研究聚焦在端到端在線(xiàn)建圖,直接獲得矢量化的高清地圖。無(wú)需手動(dòng)標注的語(yǔ)義地圖動(dòng)態(tài)構建有效地降低了構建成本。
2.2 擴散模型應用于分割和檢測
去噪擴散概率模型(DDPMs)是基于馬爾可夫鏈的一類(lèi)生成模型,在圖像生成等領(lǐng)域展現出優(yōu)秀的性能,并逐步擴展到分割和檢測等各種任務(wù)。SegDiff將擴散模型應用于圖像分割任務(wù),其中使用的UNet編碼器進(jìn)一步解耦為三個(gè)模塊:E、F和G。模塊G和F分別編碼輸入圖像I和分割圖,然后在E中通過(guò)加法合并,以迭代地細化分割圖。DDPMS使用基礎分割模型產(chǎn)生初始預測先驗,并利用擴散模型對先驗進(jìn)行細化。DiffusionDet將擴散模型擴展到目標檢測框架,將目標檢測建模為從噪聲框到目標框的去噪擴散過(guò)程。
擴散模型也應用于自動(dòng)駕駛領(lǐng)域,如MagicDrive利用幾何約束合成街景,以及Motiondiffuser將擴散模型擴展到多智能體運動(dòng)預測問(wèn)題。
2.3 地圖先驗
目前有幾種方法通過(guò)利用先驗信息(包括顯式的標準地圖信息和隱式的時(shí)間信息)來(lái)增強模型魯棒性,減少車(chē)載傳感器的不確定性。MapLite2.0以標準定義(SD)先驗地圖為起點(diǎn),并結合車(chē)載傳感器實(shí)時(shí)推斷局部高清地圖。MapEx和SMERF利用標準地圖數據改善車(chē)道感知和拓撲理解。SMERF采用基于Transformer的標準地圖編碼器編碼車(chē)道線(xiàn)和車(chē)道類(lèi)型,然后計算標準地圖信息與基于傳感器的鳥(niǎo)瞰視圖(BEV)特征之間的交叉注意力,以集成標準地圖信息。NMP通過(guò)將過(guò)去的地圖先驗數據與當前感知數據相結合,為自動(dòng)駕駛汽車(chē)提供長(cháng)期記憶能力。MapPrior結合判別式和生成式模型,在預測階段將基于現有模型生成的初步預測編碼為先驗,注入生成模型的離散潛在空間,然后使用生成模型進(jìn)行細化預測。PreSight利用先 前行程的數據優(yōu)化城市尺度的神經(jīng)輻射場(chǎng),生成神經(jīng)先驗,增強后續導航中的在線(xiàn)感知。
03 方法精析
3.1 準備工作
3.2 整體架構
如圖2所示。DiffMap作為解碼器,將擴散模型納入語(yǔ)義地圖分割模型,該模型以周?chē)嘁暯菆D像和LiDAR點(diǎn)云作為輸入,將其編碼為BEV空間并獲得融合的BEV特征。然后采用DiffMap作為解碼器生成分割圖。在DiffMap模塊中,將BEV特征作為條件來(lái)引導去噪過(guò)程。
▲圖2|DiffMap架構
◆語(yǔ)義地圖構建的基線(xiàn):基線(xiàn)主要遵循BEV編碼器-解碼器范式。編碼器部分負責從輸入數據(LiDAR和/或相機數據)中提取特征,將其轉換為高維表示。同時(shí),解碼器通常作為分割頭,將高維特征表示映射到相應的分割圖;(xiàn)在整個(gè)框架中起兩個(gè)主要作用:監督者和控制器。作為監督者,基線(xiàn)生成分割結果作為輔助監督。同時(shí),作為控制器,它提供中間BEV特征作為條件控制變量,以引導擴散模型的生成過(guò)程。
◆DiffMap模塊:沿襲LDM,作者在基線(xiàn)框架中引入DiffMap模塊作為解碼器。LDM主要由兩部分組成:一個(gè)圖像感知壓縮模塊(如VQVAE)和一個(gè)使用UNet構建的擴散模型。首先,編碼器將地圖分割ground truth 編碼為潛在空間中的,其中表示潛在空間的低維度。隨后,在低維潛在變量空間中執行擴散和去噪,然后使用解碼器將潛在空間恢復到原始像素空間。
首先通過(guò)擴散過(guò)程添加噪聲,在每個(gè)時(shí)間步獲得噪聲潛在圖,其中。然后在去噪過(guò)程中,UNet作為噪聲預測的主干網(wǎng)絡(luò )。為了增強分割結果的監督部分,并希望DiffMap模型在訓練期間直接為實(shí)例相關(guān)預測提供語(yǔ)義特征。因此,作者將UNet網(wǎng)絡(luò )結構分為兩個(gè)分支,一個(gè)分支用于預測噪聲,如傳統擴散模型,另一個(gè)分支用于預測潛在空間中的。
如圖3所示。獲得潛在圖預測后,將其解碼到原始像素空間,作為語(yǔ)義特征圖。然后就可以按照HDMapNet提出的方法從中獲得實(shí)例預測,輸出三種不同頭的預測:語(yǔ)義分割、實(shí)例嵌入和車(chē)道方向。這些預測隨后用于后處理步驟以矢量化地圖。
▲圖3|去噪模塊
整個(gè)過(guò)程是一個(gè)有條件的生成過(guò)程,根據當前傳感器輸入下獲得地圖分割結果。其結果的概率分布可以建模為,其中表示地圖分割結果,表示條件控制變量,即BEV特征。作者這里用了兩種方式融合控制變量。首先,由于和BEV特征在空間域上具有相同的類(lèi)別和尺度,將調整為潛在空間大小,然后將它們串聯(lián)作為去噪過(guò)程的輸入,如公式5所示。
其次,將交叉注意力機制融入到UNet網(wǎng)絡(luò )的每一層,其中作為key/value,作為query。交叉注意力模塊的公式如下:
3.3 具體實(shí)現
◆訓練:
◆推理:
04 實(shí)驗
4.1 實(shí)驗細節
◆數據集:在nuScenes數據集上驗證DiffMap。nuScenes數據集包含1000個(gè)場(chǎng)景的多視角圖像和點(diǎn)云,其中700個(gè)場(chǎng)景用于訓練,150個(gè)用于驗證,150個(gè)用于測試。nuScenes數據集還包含注釋的高清地圖語(yǔ)義標簽。
◆架構:使用ResNet-101作為相機分支的主干網(wǎng)絡(luò ),使用PointPillars作為模型的LiDAR分支主干網(wǎng)絡(luò );(xiàn)模型中的分割頭是基于ResNet-18的FCN網(wǎng)絡(luò )。對于自編碼器,采用VQVAE,該模型在nuScenes分割地圖數據集上進(jìn)行了預訓練,以提取地圖特征并將地圖壓縮為基本潛在空間。最后使用UNet來(lái)構建擴散網(wǎng)絡(luò )。
◆訓練細節:使用AdamW優(yōu)化器訓練VQVAE模型30個(gè)epoch。使用的學(xué)習率調度器是LambdaLR,它以指數衰減模式逐漸降低學(xué)習率,衰減因子為0.95。初始學(xué)習率設置為,批量大小為8。然后,使用AdamW優(yōu)化器從頭開(kāi)始訓練擴散模型30個(gè)epoch,初始學(xué)習率為2e-4。采用MultiStepLR調度器,該調度器根據指定的里程碑時(shí)間點(diǎn)(0.7、0.9、1.0)和在不同訓練階段的縮放因子1/3來(lái)調整學(xué)習率。最后將BEV分割結果設置為0.15m的分辨率,并將LiDAR點(diǎn)云體素化。HDMapNet的檢測范圍為[-30m,30m]×[-15m,15m]m,因此相應的BEV地圖大小為400×200,而Superfusion使用[0m,90m]×[-15m,15m]并得到600×200的結果。由于LDM的維度約束(在VAE和UNet中下采樣8倍),需要將語(yǔ)義地面實(shí)況地圖的大小填充到64的倍數。
◆推理細節:通過(guò)在當前BEV特征條件下對噪聲地圖執行去噪過(guò)程20次來(lái)獲得預測結果。使用3次采樣的平均值作為最終的預測結果。
4.2 評估指標
主要針對地圖語(yǔ)義分割和實(shí)例檢測任務(wù)進(jìn)行平評估。且主要集中在三個(gè)靜態(tài)地圖元素上:車(chē)道邊界、車(chē)道分隔線(xiàn)和行人橫道。
4.3 評估結果
表1顯示了語(yǔ)義地圖分割的 IoU 得分比較。DiffMap 在所有區間都顯示出顯著(zhù)的改善,尤其在車(chē)道分隔線(xiàn)和行人橫道上取得了最佳結果。
▲表1|IoU得分比較
如表2所示,DiffMap方法在平均精度(AP)方面也有顯著(zhù)提升,驗證了 DiffMap 的有效性。
▲表2|MAP得分比較
如表3所示,將DiffMap范式集成到HDMapNet中時(shí),可以觀(guān)察到,無(wú)論是僅使用攝像頭還是攝像頭-激光雷達融合方法,DiffMap都能提高HDMapNet的性能。這說(shuō)明DiffMap方法在各類(lèi)分割任務(wù)上都很有效,包括遠距離和近距離檢測。然而對于邊界,DiffMap的表現并不出色,這是因為邊界的形狀結構不固定,存在許多難以預測的扭曲,從而使捕捉先驗結構特征變得困難。
▲表3|定量分析結果
4.4 消融實(shí)驗
表4顯示了VQVAE中不同下采樣因子對檢測結果的影響。通過(guò)分析DiffMap在下采樣因子為4、8、16時(shí)的行為可以看到,當下采樣因子設置為8x時(shí),結果最佳。
▲表4|消融實(shí)驗結果
此外,作者還測量了刪除與實(shí)例相關(guān)的預測模塊對模型的影響,如表5所示。實(shí)驗表明,添加此預測進(jìn)一步提高了IOU。
▲表5|消融實(shí)驗結果(是否包含預測模塊)
4.5 可視化
圖4展示了DiffMap和基線(xiàn)(HDMapNet-fusion)在復雜場(chǎng)景中的比較。很明顯,基線(xiàn)的分割結果忽略了元素內部的形狀屬性和一致性。相比之下,DiffMap展示了能夠糾正這些問(wèn)題的能力,產(chǎn)生與地圖規范很好對齊的分割輸出。具體而言,在案例(a)、(b)、(d)、(e)、(h)和(l)中,DiffMap有效地糾正了不準確預測的人行橫道。在案例(c)、(d)、(h)、(i)、(j)和(l)中,DiffMap完成或刪除了不準確的邊界,使結果更接近于現實(shí)的邊界幾何。此外,在案例(b)、(f)、(g)、(h)、(k)和(l)中,DiffMap解決了分隔線(xiàn)斷裂的問(wèn)題,確保了相鄰元素的平行性。
▲圖4|定性分析結果
05 總結與未來(lái)展望
在本文中,作者設計的DiffMap網(wǎng)絡(luò )是一種利用潛在擴散模型學(xué)習地圖結構先驗的新方法,從而增強了傳統的地圖分割模型。該方法可以作為任何地圖分割模型的輔助工具,其預測結果在遠近距離檢測場(chǎng)景中都有顯著(zhù)改善。由于該方法具有很強的擴展性,適合研究其他類(lèi)型的先驗信息,例如可以將SD地圖先驗集成到DiffMap的第二模塊中,從增強其性能表現。將來(lái)有望在矢量化地圖構建中繼續有所進(jìn)步。
本文內容不用于商業(yè)目的,如涉及知識產(chǎn)權問(wèn)題,請權利人聯(lián)系51Testing小編(021-64471599-8017),我們將立即處理