如何將深度學(xué)習(xí)應(yīng)用于無人機圖像的目標檢測
本文全面概述了基于深度學(xué)習(xí)的對無人機航拍圖像進行物體檢測的方法。我們還介紹了一個應(yīng)用示例:利用無人機監(jiān)測一個非洲住房項目的建設(shè)進度。
第一部分:我們剛發(fā)布了Nano Drone APIs!
您是否知道無人機及其相關(guān)功能將在2023年成為一項價值500億美元的產(chǎn)業(yè)? 截至今天,無人機被用于農(nóng)業(yè),建筑,公共安全和安全等領(lǐng)域,同時也被其他領(lǐng)域迅速采用。隨著基于深度學(xué)習(xí)的計算機視覺為這些無人機“提供動力”,行業(yè)專家們預(yù)測無人機將在以前難以想象的應(yīng)用場景中被前所未有地廣泛使用。
我們將探索一些應(yīng)用以及伴隨著它們的挑戰(zhàn),這些應(yīng)用基于深度學(xué)習(xí)完成了基于無人機的自動化監(jiān)測。
在最后,我們將展示一個使用Nanonets機器學(xué)習(xí)框架對非洲住房項目進行遠程監(jiān)測的案例。
第一部分:航拍圖像——簡要背景
人們總是對從高處俯瞰世界著迷,從高聳的大樓上、從瞭望塔上、從堡壘,還征服了最高的山峰。為了能捕捉這樣的瞬間并且和全世界分享,人們竭盡全力,借助梯子、高樓、風(fēng)箏、氣球、飛機和火箭,挑戰(zhàn)地心引力。
1906年,從風(fēng)箏上拍攝的舊金山全景(來源:國會圖書館)
如今,即使是普通大眾也可以使用能夠飛到2公里高處的無人機。這些無人機配有高分辨率的攝像頭,能夠捕捉高質(zhì)量的圖像,用于各種分析。
農(nóng)田的航拍圖像
第二部分:無人機及其工業(yè)應(yīng)用
隨著無人機的普及,我們看到很多攝影師和業(yè)余愛好者的日常愛好和活動,他們使用無人機進行一些創(chuàng)造性項目,諸如捕捉南非的不平等現(xiàn)象,或者拍攝足以讓伍迪艾倫(Woody Allen)都感到驕傲的紐約奇景。
雖然這一切看起來很輕巧,但是價值500億美元的無人機產(chǎn)業(yè)核心在于工業(yè)應(yīng)用。
在這里我們探討一二:
能源:太陽能發(fā)電廠的檢測
太陽能發(fā)電廠的日常檢測和維護是一項艱巨的任務(wù)。傳統(tǒng)的人工檢測方式只能支持每三個月/次的檢測頻率。由于環(huán)境惡劣,太陽能電池板可能會有缺陷。損壞的太陽能電池板部件降低了功率輸出效率。
左圖:太陽能電池板的原始熱圖像
右圖:因特爾自動化系統(tǒng)檢測的缺陷定位和分類
農(nóng)業(yè):植物早期病害的檢測
倫敦帝國理工學(xué)院(Imperial College London)的研究人員在無人機上安裝多光譜相機,這些相機將使用特殊的過濾器從選定的電磁光譜區(qū)域捕捉反射光。有病害的植物通常會顯示出一種有別于健康植物“光譜特征”。
帶有病原和營養(yǎng)不足的植物葉片的光譜圖像
公共安全:鯊魚偵測
對一大片土地/水域的俯視圖進行分析,可以獲取大量關(guān)于治安和公共安全方面的信息。其中一個例子就是在澳大利亞沿海水域發(fā)現(xiàn)鯊魚。澳大利亞西太平洋集團開發(fā)了一種基于深度學(xué)習(xí)的目標探測系統(tǒng)來偵測水中的鯊魚。
除此之外,還有各種各樣的航拍圖像應(yīng)用程序,比如土木工程(橋梁日常檢查,電線監(jiān)測和交通調(diào)查),石油和天然氣(近海石油和天然氣平臺、鉆井設(shè)備的檢查),公共安全(機動車事故、核事故、建筑火災(zāi)、船舶碰撞、飛機和火車事故)及治安(交通監(jiān)測、邊境監(jiān)測、海岸監(jiān)測、敵對游行示威及暴動控制)。
第三部分:獲取和處理工業(yè)級無人機圖像
為了全面捕捉地形和景觀,航拍圖像的獲取過程可以分為兩個步驟。
攝影測量:在無人機飛行過程中,為了確保圖象重疊,需要每隔一段時間拍攝幾張圖像。這一步很重要,這樣才能測量成像物體間的距離。廣義上講,這一過程被稱為攝影測量學(xué)。對于需要用于數(shù)據(jù)分析和制圖的圖像,還需要相應(yīng)的元數(shù)據(jù)進行圖像拼接。這些元數(shù)據(jù)由無人機上的微型計算機自動嵌入。
圖像拼接:一旦數(shù)據(jù)采集完成后,第二步是將單個航拍圖像合并成一張有用的地圖,通常使用一種專門的攝影測量技術(shù)將圖像快速拼接在一起。這種特殊的攝影測量技術(shù)被稱為從運動信息中恢復(fù)三維場景結(jié)構(gòu)(Sfm)。Sfm軟件從不同角度將同一場景的圖像進行比較、匹配,并測量每幅圖象中物體間的角度后,拼接在一起。在這個步驟里,可能需要參考圖象的地理信息,以便將位置信息附加到每個圖象上。
完成圖像拼接后,生成的圖像可用于上述提到各種應(yīng)用分析中。
第四部分:人工智能遇上無人機
高分辨率航空影像在全球范圍內(nèi)越來越常見,它包含大量可與維護、土地開發(fā)、疾病控制、缺陷定位、監(jiān)測、等應(yīng)用相關(guān)聯(lián)的信息。不幸的是,這些數(shù)據(jù)通常是高度非結(jié)構(gòu)化的,因此即便有密集的人工分析,從中大規(guī)模提取有意義的見解還是充滿挑戰(zhàn)性。
例如,城市用地的分類通常是根據(jù)訓(xùn)練有素的專業(yè)人員的測量。所以這項任務(wù)是勞動密集型的、不頻繁的、緩慢的和昂貴的。因此,這些數(shù)據(jù)大多只在那些擁有收集和管理這些數(shù)據(jù)所需的資源和遠見的發(fā)達國家和大城市中才有。
自動分析航空影像的另一個動機是預(yù)測有關(guān)地區(qū)變化的迫切需要。例如,在大型公眾集會(如音樂會、足球比賽、抗議活動等)上,經(jīng)常需要進行群眾計數(shù)和群眾行為。傳統(tǒng)上,會有專人來分析從閉路電視攝像頭直接傳送到指揮中心的圖像。正如你想象的那樣,這種方法存在幾個問題,例如在檢測事件時人為的延遲或錯誤,以及標準的靜態(tài)閉路電視(CCTV)缺乏足夠的視圖。
以下是使用航空影像時經(jīng)常遇到的一些挑戰(zhàn)。
航空影像自動化的挑戰(zhàn)與限制
當自動分析無人機圖像時,有幾個挑戰(zhàn)需要克服。下面列出了其中的一些,并
給出了有前景的解決方案:
對物體的平視和小視:當前的計算機視覺算法和數(shù)據(jù)集是用以人為中心通過水平拍攝的近距離物體照片的實驗室設(shè)置而設(shè)計和評估的。對于垂直拍攝的無人機圖像,感興趣的對象相對較小且特征較少,主要表現(xiàn)為平面和矩形。如,從無人機上拍攝的建筑物圖像只顯示屋頂,而建筑物的地面圖像將具有門、窗和墻等特征。
數(shù)據(jù)標注困難:按照上述觀點,即使我們可以獲得大量的圖像,我們?nèi)孕鑼ζ溥M行標注。這是一項手工任務(wù),需要精確性和準確性,因為“輸入垃圾意味著輸出垃圾”。 除了手動完成之外,沒有什么神奇方法來解決標簽問題。在Nanonet,我們根據(jù)需要提供 可以為你標記數(shù)據(jù)的注釋器。
圖像尺寸大:無人機圖像尺寸很大,大多數(shù)情況下分辨率超過3000px X 3000px。這增加了處理此類圖像時的計算復(fù)雜度。為了克服這一問題,我們將預(yù)處理方法應(yīng)用于航空成像,以便使它們?yōu)槲覀兊哪P陀?xùn)練階段做好準備。這包括以不同的分辨率、角度和姿勢裁剪圖像,以使我們的訓(xùn)練不受這些變化的影響。
對象重疊:分割圖像的問題之一是同一個對象可能出現(xiàn)在兩張不同的圖像中。這會導(dǎo)致重復(fù)檢測和計數(shù)錯誤。此外,在檢測過程中,某些彼此非常接近的對象也可能具有重疊的邊框。克服這個問題的方法之一是通過滑動窗口向上采樣,以尋找小的、密集的對象。
第五部分:Nanonets案例研究:非洲建筑項目遠程自動化檢視
務(wù)實大師(Pragmatic Master),一家南非機器人即服務(wù)(robotics-as-a-service )公司與Nanonets合作對非洲一個住房建設(shè)項目進展進行遠程自動化監(jiān)控。
這些項目通常因為誤報而產(chǎn)生拖延和盜竊,這可能通過頻繁的無人機飛行測繪和記錄來解決
我們的目標是通過探測以下基礎(chǔ)設(shè)施來捕捉房屋在不同階段的建造進度:
地基(開始)
墻面板(正在進行)
屋頂(部分完成)
護墻(收尾)
熱水器(可以搬入)
Pragmatic Master之所以選擇Nanonet作為深度學(xué)習(xí)的提供者是因為Nanonet易于使用的web平臺和即插即用的APIs。
使用Nanonet API的端到端流程非常簡單,只需四個步驟。
End-to-end flow of the Nanonets API
1.上傳圖片:從無人機獲取的圖片可以直接上傳到我們的上傳頁面。在當前的案例研究中,我們總共獲得了1442張低空拍攝的建筑工地照片。上傳圖片的例子會在下方給出。
2. 圖像的標記:在任何監(jiān)督機器學(xué)習(xí)流程中,標記圖像可能是最困難和最耗時的步驟,但是在Nanonets,我們可以為你完成標記。我們有多年航空成像工作經(jīng)驗的內(nèi)部專家。他們將精準及準確地注釋你的圖像,以進行更好的模型訓(xùn)練。對于Pragmatic Master的用例,我們標記了以下對象及其在所有圖像中的總數(shù)。
屋頂: 2299
熱水器: 6556
墻面板: 1043
護墻: 8730
標記了熱水器的圖像
3. 模型訓(xùn)練:在Nanonets,我們同時采用遷移學(xué)習(xí)的原則對你的圖像進行訓(xùn)練。這包括重新訓(xùn)練一個已經(jīng)用大量的航空成像預(yù)訓(xùn)練過的模型。這有助于模型更容易在你的圖像上識別微圖像如邊緣、線條和輪廓和關(guān)注更具體的宏觀模式如房屋、樹木、人類和汽車等。遷移學(xué)習(xí)也縮減了訓(xùn)練時間因為模型不需要進行大量的迭代也能有良好性能。
我們專有的深度學(xué)習(xí)軟件能聰明地選擇最佳的模型,并根據(jù)你的用例優(yōu)化超參數(shù)。這涉及到使用高級搜索算法在多個模型和多維參數(shù)間進行搜索。
最難探測的對象是最小的對象,因為它們的分辨率較低。我們的模型訓(xùn)練策略被優(yōu)化,以檢測非常小的物體,如只有幾個像素面積的熱水器和護墻。
檢測到完整的房子
下面是每個類的平均精度,
屋頂:95.1%
熱水器:88%
墻面板:92%
護墻:81%
注意:添加更多的圖像可以提高平均精度。我們的API還支持在同一圖像中檢測多個對象,例如在一個圖像中檢測屋頂和護墻。
4. 測試與集成:在模型訓(xùn)練好后,你可以將Nanonet的API直接集成到您的系統(tǒng)中或者我們還提供一個鏡像,其中包含你訓(xùn)練過的模型和推理代碼。鏡像可以方便地進行縮放,并提供容錯推理系統(tǒng)。
最后一步,圖像被拼接起來并使用與每幅圖像相關(guān)聯(lián)的GIS數(shù)據(jù)創(chuàng)建整個景觀視圖。
預(yù)測的圖像拼接在一起創(chuàng)造了整個景觀視圖
第6部分:數(shù)據(jù)私隱
客戶信任是我們的首要。我們致力于在任何時候為你提供所有權(quán)和你內(nèi)容的控制。我們提供了兩個使用我們服務(wù)的套餐,
開發(fā)人員:你上傳的用例圖像可能被我們用來預(yù)訓(xùn)練我們的模型,我們可以進一步將其用于我們的其他應(yīng)用程序。
企業(yè):你的數(shù)據(jù)就是你的!我們永遠不會將你的數(shù)據(jù)用于任何模型的預(yù)訓(xùn)練。
在這兩個套餐中,我們與我們的云合作伙伴Amazon Web Services合作,使用高度復(fù)雜的數(shù)據(jù)隱私和安全協(xié)議。你的數(shù)據(jù)集是匿名的,并且在預(yù)處理和訓(xùn)練過程中經(jīng)過最少的人工干預(yù)。我們所有人都簽署了保密協(xié)議(NDA),以保護你的數(shù)據(jù)不落入壞人之手。因為我們相信“你的數(shù)據(jù)就是你的!”,你可以要求我們在任何階段從我們的服務(wù)器上刪除你的數(shù)據(jù)。
Nanonet是一種web服務(wù),它使得使用深度學(xué)習(xí)變得容易。你可以用你自己的數(shù)據(jù)構(gòu)建一個模型,以實現(xiàn)更高的準確性,并使用我們的APIs將其集成到你的應(yīng)用程序中。
更多細節(jié)請訪問:https://nanonets.com/drone
務(wù)實大師(Pragmatic Master)是一家南非機器人即服務(wù)公司,提供裝配相機的無人機,以獲取建筑、農(nóng)業(yè)和采礦工地的圖像。通過對這些圖像的分析,讓我們能跟蹤進度、識別挑戰(zhàn)、消除低效并提供場地的整體鳥瞰圖。