如何將多目標(biāo)檢測(cè)用于建筑平面圖? | MixLab智能建筑
在建筑平面圖的分析中,一些復(fù)雜的平面圖總是會(huì)讓人感到頭暈?zāi)X脹,不同的標(biāo)注方式以及不同的圖形符號(hào)更難以讓普通人去解讀。

5種不同圖形符號(hào)的浴缸以及真實(shí)場(chǎng)景中具有的遮擋,標(biāo)注等信息
有時(shí),圖形符號(hào)又會(huì)極其簡(jiǎn)單,對(duì)于人類來(lái)說(shuō)對(duì)此的解讀會(huì)顯得十分容易,但對(duì)機(jī)器來(lái)說(shuō)又會(huì)變得毫無(wú)特征進(jìn)而無(wú)法分析。

信息量較少的圖形:入口門,壁櫥門,冰箱和洗碗機(jī)
在本文中,作者通過(guò)利用前沿的深度學(xué)習(xí)技術(shù),并改編基于YOLOv2架構(gòu)的對(duì)象監(jiān)測(cè)框架來(lái)解決上述所有問(wèn)題。
-- workflow

輸入圖像->圖像分塊->YOLOv2處理->閾值處理->圖像整合
是不是看起來(lái)很簡(jiǎn)單,但事實(shí)并非如此
- 數(shù)據(jù)集
首先是數(shù)據(jù)集的準(zhǔn)備,帶注釋的圖紙數(shù)據(jù)集很難獲得,網(wǎng)上很少有公開的,對(duì)于建筑平面圖而言尤其如此,這是因?yàn)橹R(shí)產(chǎn)權(quán)經(jīng)常會(huì)限制其使用和發(fā)布。
想盡一切辦法解決數(shù)據(jù)集的問(wèn)題后,面臨的是數(shù)據(jù)拆分與數(shù)據(jù)清洗。因?yàn)閳D像識(shí)別是無(wú)法直接檢測(cè)pdf類型的圖紙的,所以首先需要將pdf轉(zhuǎn)換成DPI圖像,并針對(duì)建筑的符號(hào)類型進(jìn)行標(biāo)注,例如浴室、水槽、窗戶、以及電器。

浴室水槽,進(jìn)門,單折疊門,雙折疊門,浴缸,淋浴等
- 預(yù)處理
在處理建筑平面圖圖像時(shí),我們會(huì)面臨幾個(gè)問(wèn)題。
首先,平均一張平面圖的尺寸為5400×3600像素,而單個(gè)物體符號(hào)非常?。赡苤挥?0x 80像素)。若對(duì)模型直接投喂一整張圖片的話,很多符號(hào)可能都會(huì)在CNN的輸出特征圖中消失。
此外,平面圖圖像具有不同的長(zhǎng)寬比,若按照CNN架構(gòu)的要求將其調(diào)整為固定大小,將會(huì)極大地改變了符號(hào)形態(tài),從而降低了分類性能。
那么,我們可以通過(guò)圖像切片與平鋪進(jìn)行處理數(shù)據(jù)集,可解決上述問(wèn)題。并且還可以有效的擴(kuò)充數(shù)據(jù)集。

通過(guò)圖像平鋪策略進(jìn)行數(shù)據(jù)增強(qiáng)。會(huì)發(fā)現(xiàn)符號(hào)出現(xiàn)在圖塊內(nèi)的各個(gè)位置,同時(shí)其中還包括其他各種符號(hào)。
-?訓(xùn)練網(wǎng)絡(luò)
對(duì)比YOLOv3和YOLOv2,雖然YOLOv3能夠更好的預(yù)測(cè)和特征提取,但相對(duì)來(lái)說(shuō)會(huì)使模型變的緩慢。而YOLOv2相比YOLO有著更好的召回與精度,在這樣的監(jiān)測(cè)中可以保證精度的同時(shí),不會(huì)讓模型運(yùn)行變得太慢。
最后,對(duì)于重疊檢測(cè),我們比較所有對(duì)邊界框。如果它們的重疊大于閾值(較小邊框的大小的百分比),則保留具有最高分類分?jǐn)?shù)的邊框。如果分?jǐn)?shù)接近,則選擇較大的邊界框,并刪除較小的邊界框。

重疊檢測(cè),選取10%閾值的結(jié)果
在實(shí)際數(shù)據(jù)集中檢測(cè)到的各種級(jí)別的遮擋和重疊:


實(shí)際的建筑平面圖檢測(cè)結(jié)果
讓小白也能看得懂的建筑圖?
本文所涉及的技術(shù)資料
歡迎加入星球獲取~?
