上海交大發(fā)布 MedMNIST 醫(yī)學圖像分析數(shù)據(jù)集 & 新基準
授權轉載自HyperAI超神經(jīng)
醫(yī)學圖像分析是一個公認的「老大難」課題。
首先它是一個跨學科領域,要求從業(yè)者具備多方面知識背景,即使你是鉆研計算機視覺的專業(yè)人士,又或者是一個臨床醫(yī)學從業(yè)者,那你充其量只邁出了進行醫(yī)學圖像分析的半只腳。
樂觀估計,經(jīng)過多年的學習和研究,你終于掌握了計算機視覺和臨床醫(yī)學的雙向技能,那接下來的操作也能讓你愁到頭禿,因為這些數(shù)據(jù)來源五花八門,有 X 射線、CT、超聲……分析處理這么多個不同模式的非標準數(shù)據(jù)集,也太難了!
這還沒完,深度學習雖然在醫(yī)學圖像分析的研究和應用中,已經(jīng)占據(jù)主導地位,但模型調(diào)整需要的人力成本太高了,AutoML 好使是好使,但是目前基本沒有用于醫(yī)學圖像分類的 AutoML 基準。

醫(yī)學圖像分析困難重重,然而上海交通大學近期發(fā)布的 MedMNIST 數(shù)據(jù)集,則為終結這些老大難問題,帶來了一大利器。
10 個公開數(shù)據(jù)集、45 萬張圖像重新整理
10 個公開數(shù)據(jù)集、45 萬張圖像重新整理
MedMNIST 是一個包含 10 個醫(yī)學公開數(shù)據(jù)集的集合,且全部數(shù)據(jù)均已經(jīng)過預處理,將其分為包括訓練集、驗證集、測試子集的標準數(shù)據(jù)集。數(shù)據(jù)來源包括 X 射線、OCT、超聲、CT 等不同成像模式,得到了同一病灶的多模態(tài)數(shù)據(jù)。與 MNIST 數(shù)據(jù)集一樣,MedMNIST 可以在輕量級 28*28 圖像上執(zhí)行分類任務。

十個數(shù)據(jù)集的數(shù)據(jù)模式、適用任務及圖像數(shù)量
MedMNIST 具有以下特點:
教育性:多模態(tài)數(shù)據(jù)來自于多個公共醫(yī)學圖像數(shù)據(jù)集,采用知識共享(CC)許可協(xié)議或自由許可協(xié)議,方便教學使用。
標準化:全部數(shù)據(jù)已經(jīng)預處理成相同的格式,降低準入門檻,任何人都可以使用。
多樣性:多模態(tài)數(shù)據(jù)集涵蓋了不同的數(shù)據(jù)模式,數(shù)據(jù)規(guī)模從 100 到 100,000 都支持,任務類型也豐富為二元分類、多元分類、有序回歸和多標簽。
輕量級:28*28 的圖像尺寸便于迅速進行原型設計,對多模態(tài)機器學習和 AutoML 算法進行快速迭代和實驗。
MedMNIST Dataset
發(fā)布機構:上海交通大學
包含數(shù)量:454,591 個圖像數(shù)據(jù)
數(shù)據(jù)格式:NPZ
數(shù)據(jù)大?。?54 MB
發(fā)布時間:2020 年 10 月 28 日
下載地址:http://dwz.date/dew2
十項全能大法好,打造 AutoML 新基準?
十項全能大法好,打造 AutoML 新基準?
十項全能大法好,打造 AutoML 新基準?
受《醫(yī)學分割十項全能》(Medical Segmentation Decathlon)的啟發(fā),上海交通大學的科研人員還發(fā)布了《MedMNIST 分類十項全能》 (MedMNIST Classification Decathlon),作為醫(yī)學圖像分類中的輕量級 AutoML 基準。
科研人員用 MedMNIST 分類十項全能,評估了在全部 10 個數(shù)據(jù)集上的算法性能,并采取了其他幾個 baseline 方法與該基準進行對比,這些方法包括 ResNets(18、50)、auto-sklearn、AutoKeras、Google AutoML Vision。

MedMNIST 在 AUC 和 ACC 等指標上的性能一覽
實驗結果表明,針對全部 10 個數(shù)據(jù)集,都能取得很好的泛化性能的算法,在實驗中并不存在。該實驗對于探索在不同數(shù)據(jù)模式、任務類型和數(shù)據(jù)規(guī)模上,進行很好地泛化的 AutoML 算法,意義重大。
MedMNIST 分類十項全能基準測試,將促進未來醫(yī)學圖像分析 AutoML 的相關研究。
相關論文:
https://arxiv.org/pdf/2010.14925.pdf
開源地址:
https://github.com/MedMNIST/MedMNIST
現(xiàn)在下載數(shù)據(jù)集,開始你的訓練
現(xiàn)在下載數(shù)據(jù)集,開始你的訓練
下載數(shù)據(jù)集,在線訓練機器學習模型,你可以通過 OpenBayes 開啟你的練習。
OpenBayes 是一個針對機器學習提供云端算力的云服務平臺,它擁有大規(guī)模的超算集群,支持多種配置的 GPU、CPU 算力資源,擁有開箱即用泛用型機器學習建模系統(tǒng),無需機器學習經(jīng)驗,即可快速建立智能系統(tǒng)。
目前 OpenBayes 的算力容器產(chǎn)品已經(jīng)支持 TensorFlow、PyTorch、MXNet、Darknet、cpp-develop 等 CPU 和 GPU 環(huán)境下,不同版本、類型的標準機器學習框架和各種常用依賴。

同時 OpenBayes 還提供 CPU、NVIDIA T4、NVIDIA Tesla V100?等多種算力資源,無論是海量數(shù)據(jù)的集中訓練,還是低功耗的模型常駐運行,都能輕松滿足用戶需求。

目前 MedMNIST 數(shù)據(jù)集已經(jīng)上線 OpenBayes。

訪問以下鏈接,開啟你的 MedMNIST 探索旅程吧!
往期精彩:
【原創(chuàng)首發(fā)】機器學習公式推導與代碼實現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學習語義分割理論與實戰(zhàn)指南.pdf
