非常好用的Python圖像增強(qiáng)工具,適用多個(gè)框架
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
作者:mdbloice
編譯:ronghuaiyang
圖像增強(qiáng)是CV領(lǐng)域非常常用的技術(shù),這里找到一個(gè)非常好用的圖像增強(qiáng)的工具,可以用于Pytorch和Keras,而且功能強(qiáng)大,使用簡(jiǎn)單,更重要的是可以成對(duì)的進(jìn)行圖像增強(qiáng),簡(jiǎn)直是實(shí)戰(zhàn)利器,有了這個(gè),媽媽再也不用擔(dān)心我的數(shù)據(jù)不夠了。
Augmentor是一個(gè)Python的圖像增強(qiáng)庫(kù)。這是一個(gè)獨(dú)立的庫(kù),不依賴(lài)與某個(gè)平臺(tái)或某個(gè)框架,非常的方便,可以進(jìn)行細(xì)粒度的增強(qiáng)控制,而且實(shí)現(xiàn)了大部分的增強(qiáng)技術(shù)。使用了隨機(jī)的方法來(lái)構(gòu)建基礎(chǔ)的模塊,用戶(hù)可以把這些模塊組成pipline使用。
Augmentor是Python寫(xiě)的。還有一個(gè)Julia的版本,鏈接:https://github.com/Evizero/Augmentor.jl
使用pip安裝:
pip install Augmentor從源碼安裝的話,請(qǐng)看編譯文檔。升級(jí)版本的話:
pip install Augmentor --upgrade完整的文檔鏈接: http://augmentor.readthedocs.io
Augmentor的目的是進(jìn)行自動(dòng)的圖像增強(qiáng)(生成人造數(shù)據(jù))為了擴(kuò)展數(shù)據(jù)集作為機(jī)器學(xué)習(xí)算法的輸入,特別是神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。
這個(gè)包通過(guò)創(chuàng)建一個(gè)增強(qiáng)的pipeline,即定義一系列的操作。這些操作有比如旋轉(zhuǎn)和變換,一個(gè)加一個(gè)成為一個(gè)增強(qiáng)的pipeline,當(dāng)完成的時(shí)候,pipeline可以執(zhí)行,增強(qiáng)之后的數(shù)據(jù)也創(chuàng)建成功。
開(kāi)始時(shí),需要初始化pipeline對(duì)象,指向一個(gè)文件夾。
import Augmentorp = Augmentor.Pipeline("/path/to/images")
然后可以在pipeline對(duì)象中添加操作:
p.rotate(probability=0.7, max_left_rotation=10, max_right_rotation=10p.zoom(probability=0.5, min_factor=1.1, max_factor=1.5)
每個(gè)函數(shù)需要制定一個(gè)概率,用來(lái)決定是否需要對(duì)這個(gè)圖像進(jìn)行這個(gè)操作。
一旦你創(chuàng)建了pipeline,可以從中進(jìn)行采樣,就像這樣:
p.sample(10000)這樣會(huì)產(chǎn)生10000個(gè)增強(qiáng)之后的圖像。默認(rèn)會(huì)寫(xiě)到指定文件夾中的名為output的目錄中,這個(gè)指定文件夾就是初始化時(shí)指定的那個(gè)。
如果你想進(jìn)行一次圖像的增強(qiáng)操作,可以使用process():
p.process()這個(gè)函數(shù)在進(jìn)行數(shù)據(jù)集縮放的時(shí)候會(huì)有用。可以創(chuàng)建一個(gè)pipeline,其中所有的操作的概率都設(shè)置為1,然后使用process()方法。
Augmentor (version >=0.2.1) 現(xiàn)在使用多線程技術(shù)來(lái)提高速度。
對(duì)于原始圖像非常小的圖像來(lái)說(shuō),某些pipeline可能會(huì)變慢。如果發(fā)現(xiàn)這種情況,可以設(shè)置multi_threaded為False。
p.sample(100, multi_threaded=False)默認(rèn)的情況下,sample()函數(shù)是使用多線程的。這個(gè)只在保存到磁盤(pán)的時(shí)候?qū)崿F(xiàn)。生成器也會(huì)在下個(gè)版本使用多線程。
圖像可以?xún)蓚€(gè)一組的通過(guò)pipeline,所以ground truth的圖像可以同等的進(jìn)行增強(qiáng)。
| Original image and mask[3] | Augmented original and mask images |
|---|---|
|
|
為了并行的對(duì)原始數(shù)據(jù)進(jìn)行g(shù)round truth的增強(qiáng),可以使用ground_truth()方法增加一個(gè)ground truth的文件夾到pipeline中:
p = Augmentor.Pipeline("/path/to/images")# Point to a directory containing ground truth data.# Images with the same file names will be added as ground truth data# and augmented in parallel to the original data.p.ground_truth("/path/to/ground_truth_images")# Add operations to the pipeline as normal:p.rotate(probability=1, max_left_rotation=5, max_right_rotation=5)p.flip_left_right(probability=0.5)p.zoom_random(probability=0.5, percentage_area=0.8)p.flip_top_bottom(probability=0.5)p.sample(50)
使用DataPipeline類(lèi) (Augmentor version >= 0.2.3),可以對(duì)有多個(gè)相關(guān)的掩模的圖像進(jìn)行增強(qiáng):
| Multiple Mask Augmentation |
|---|
|
任意長(zhǎng)度的圖像列表都可以成組的通過(guò)pipeline,并且使用DataPipeline類(lèi)同樣的進(jìn)行增強(qiáng)。這個(gè)對(duì)于ground truth圖像有好幾個(gè)掩模的時(shí)候非常有用。舉個(gè)例子。
下面的例子中,圖像和掩模包含在一個(gè)images的數(shù)據(jù)結(jié)構(gòu)中,對(duì)應(yīng)的標(biāo)簽在y中:
p = Augmentor.DataPipeline(images, y)p.rotate(1, max_left_rotation=5, max_right_rotation=5)p.flip_top_bottom(0.5)p.zoom_random(1, percentage_area=0.5)augmented_images, labels = p.sample(100)
DataPipeline直接返回圖像,并不存儲(chǔ)在磁盤(pán)中,也不從磁盤(pán)中讀取數(shù)據(jù)。圖像通過(guò)初始化直接傳到DataPipeline中。images的數(shù)據(jù)結(jié)構(gòu)的創(chuàng)建細(xì)節(jié),可以參考https://github.com/mdbloice/Augmentor/blob/master/notebooks/Multiple-Mask-Augmentation.ipynb。
如果你不想將圖像存儲(chǔ)到硬盤(pán)中,可以使用生成器,generator,使用Keras的情況:
g = p.keras_generator(batch_size=128)images, labels = next(g)
返回的圖像的batchsize是128,還有對(duì)應(yīng)的labels。Generator返回的數(shù)據(jù)是不確定的,可以用來(lái)在線生成增強(qiáng)的數(shù)據(jù),用在訓(xùn)練神經(jīng)網(wǎng)絡(luò)中。
同樣的,你可以使用Pytorch:
import torchvisiontransforms = torchvision.transforms.Compose([p.torch_transform(),torchvision.transforms.ToTensor(),])
使用彈性畸變,一張圖像可以生成許多圖像。
| Input Image | Augmented Images | |
|---|---|---|
| → |
|
這個(gè)輸入圖像有一個(gè)像素寬的黑邊,表明了在進(jìn)行畸變的時(shí)候,沒(méi)有改變尺寸,也沒(méi)有在新的圖像上進(jìn)行任何的padding。
具體的功能可以在這里看到:
| Original Image[1] | Random distortions applied |
|---|---|
![]() |
|
總共有12個(gè)不同類(lèi)型的透視變換。4中最常用的如下:
| Tilt Left | Tilt Right | Tilt Forward | Tilt Backward |
|---|---|---|---|
![]() | ![]() | ![]() | ![]() |
剩下的8種透視變換:
| Skew Type 0 | Skew Type 1 | Skew Type 2 | Skew Type 3 |
|---|---|---|---|
![]() | ![]() | ![]() | ![]() |
| Skew Type 4 | Skew Type 5 | Skew Type 6 | Skew Type 7 |
|---|---|---|---|
![]() | ![]() |
| ![]() |
默認(rèn)保持原始文件大小的旋轉(zhuǎn):
| Original Image | Rotated 10 degrees, automatically cropped |
|---|---|
![]() | ![]() |
對(duì)比其他軟件的旋轉(zhuǎn):
| Original Image | Rotated 10 degrees |
|---|---|
![]() | ![]() |
剪切的同時(shí)也會(huì)自動(dòng)從剪切圖像中裁剪正確的區(qū)域,所以圖像中沒(méi)有黑的區(qū)域或者padding。
| Original image | Shear (x-axis) 20 degrees | Shear (y-axis) 20 degrees |
|---|---|---|
![]() | ![]() | ![]() |
對(duì)比普通的剪切操作:
| Original image | Shear (x-axis) 20 degrees | Shear (y-axis) 20 degrees |
|---|---|---|
![]() | ![]() | ![]() |
裁剪同樣也使用了一種更加適合機(jī)器學(xué)習(xí)的方法:
| Original image | Random crops + resize operation |
|---|---|
![]() |
|
隨機(jī)擦除是一種使模型對(duì)遮擋更加魯棒的技術(shù)。這個(gè)對(duì)使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練物體檢測(cè)的時(shí)候非常有用:
| Original image[2] | Random Erasing |
|---|---|
|
|
看 Pipeline.random_erasing() 文檔了解更多的用法。
使用幾個(gè)操作,單個(gè)圖像可以增強(qiáng)成許多的新圖像,對(duì)應(yīng)同樣的label:
| Original image | Distortions + mirroring |
|---|---|
| ![]() |
在上面的例子中,我們使用了3個(gè)操作:首先做了畸變操作,然后進(jìn)行了左右的鏡像,概率為0.5,最后以0.5的概率做了上下的翻轉(zhuǎn)。然后從這個(gè)pipeline中采樣了100次,得到了100個(gè)數(shù)據(jù)。
p.random_distortion(probability=1, grid_width=4, grid_height=4, magnitude=8)p.flip_left_right(probability=0.5)p.flip_top_bottom(probability=0.5)p.sample(100)
從本地文件夾中讀取圖像進(jìn)行增強(qiáng),然后使用生成器將增強(qiáng)的圖像流送到卷積神經(jīng)網(wǎng)絡(luò)中,參見(jiàn) https://github.com/mdbloice/Augmentor/blob/master/notebooks/Augmentor_Keras.ipynb
增強(qiáng)內(nèi)存中的圖像,使用生成器將新的圖像送到Keras的網(wǎng)絡(luò)中,參見(jiàn) https://github.com/mdbloice/Augmentor/blob/master/notebooks/Augmentor_Keras_Array_Data.ipynb
Augmentor 允許每個(gè)類(lèi)定義不同的pipelines,這意味著你可以在分類(lèi)問(wèn)題中為不同的類(lèi)別定義不同的增強(qiáng)策略。
例子在這里:https://github.com/mdbloice/Augmentor/blob/master/notebooks/Per_Class_Augmentation_Strategy.ipynb
我們可以使用一張圖像來(lái)完成一個(gè)增強(qiáng)的任務(wù),演示一下Augmentor的pipeline和一些功能。
首先,導(dǎo)入包,初始化Pipeline對(duì)象,指定一個(gè)文件夾,這個(gè)文件夾里放著你的圖像。
import Augmentorp = Augmentor.Pipeline("/home/user/augmentor_data_tests")
然后你可以在pipeline中添加各種操作:
p.rotate90(probability=0.5)p.rotate270(probability=0.5)p.flip_left_right(probability=0.8)p.flip_top_bottom(probability=0.3)p.crop_random(probability=1, percentage_area=0.5)p.resize(probability=1.0, width=120, height=120)
操作添加完了之后,可以進(jìn)行采樣:
p.sample(100)其中的幾個(gè)
| Input Image[3] | Augmented Images | |
|---|---|---|
![]() | → | ![]() |
增強(qiáng)的圖像對(duì)邊緣檢測(cè)任務(wù)也許很有用。
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱(chēng)+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

































