Nat. Biotechnol. | 利用深度學(xué)習(xí)從基因轉(zhuǎn)錄數(shù)據(jù)中預(yù)測藥物療效
作者 | 蔣長志
審稿 | 蔣立坤
今天給大家介紹來自北京大學(xué)醫(yī)學(xué)部的謝正偉團隊發(fā)表在Nature Biotechnology上的文章,文章提出了一種基于深度學(xué)習(xí)的藥效預(yù)測系統(tǒng)(DLEPS),該系統(tǒng)將藥物SMILES分子輸入神經(jīng)網(wǎng)絡(luò)來擬合藥物作用下基因表達(dá)譜變化信息,從而預(yù)測疾病藥物分子,該模型在測試集上的預(yù)測效果(Pearson相關(guān)系數(shù))達(dá)到0.74;并進行了案例分析,即分別預(yù)測肥胖、高尿酸血癥和非酒精性脂肪性肝炎三種疾病藥物分子,隨后通過構(gòu)建小鼠模型驗證了系統(tǒng)預(yù)測的候選藥物的有效性,表明該系統(tǒng)具有通用性,可以預(yù)測多種疾病的藥物分子。
研究背景
在過去的幾十年里,基于靶蛋白的藥物研發(fā)已經(jīng)是一種成功的方法,但是這些方法不能處理缺乏明確定義靶蛋白的疾病,那么針對這種疾病的策略是設(shè)計一個能夠獨立于特定靶標(biāo)的藥效預(yù)測模型;比如Stokes, J. M等人于2020年發(fā)表在Cell期刊上的研究提出使用定制的深度學(xué)習(xí)模型來發(fā)現(xiàn)治療大腸桿菌感染的新候選抗生素,但是該模型依賴于特定單一疾病狀態(tài)的表型數(shù)據(jù),缺乏推廣到其他疾病的能力。因此,設(shè)計出一種能夠預(yù)測多種疾病藥物分子的通用系統(tǒng)是有重要意義的。
2
主要貢獻
(1)本文提出了一個基于深度學(xué)習(xí)的疾病藥物分子預(yù)測模型,該模型是利用藥物分子和藥物作用下的基因表達(dá)譜信息進行訓(xùn)練,不需要知道靶蛋白信息,這給缺乏明確定義靶蛋白的疾病藥物分子預(yù)測帶來新的思路;
(2)本文做了生物實驗驗證了系統(tǒng)的有效性,分別是使用褐變基因特征尋找抗肥胖分子、使用多個基因特征識別抗高尿酸血癥分子以及鑒定抗非酒精性脂肪性肝炎的藥物分子。
3
模型
3.1數(shù)據(jù)預(yù)處理
本文使用的數(shù)據(jù)集是L1000,該數(shù)據(jù)來源于一個項目庫(Integrated Network-Based Cellular Signatures),對其進行清洗處理,按照以下規(guī)則進行清洗:
分子必須有超過5個備份;
分子的SMILES要能使用RDKIT(version 2017.9.1)工具解析。
隨后,通過處理過程獲得了與疾病的標(biāo)志性基因有關(guān)的17051個已經(jīng)驗證的分子,其中隨機選取14051個分子作為訓(xùn)練集,1500個分子作為驗證集以及1500分子作為測試集。
3.2 方法
模型輸入與疾病標(biāo)志性基因表達(dá)譜變化有關(guān)的藥物分子數(shù)據(jù),輸出藥物作用下的基因表達(dá)譜信息,從而預(yù)測疾病藥物分子。首先,使用GVAE(語法樹模型)對藥物分子的SMILES進行編碼,即將SMILES解析成一個語法樹(有76個節(jié)點類型),并使用one-hot編碼成一個向量;然后將SMILES的向量表示輸入到包含三個一維卷積層的神經(jīng)網(wǎng)絡(luò)中獲得新的特征表示,隨后將獲得的新特征表示拼接成一維的向量輸入到全連接層中輸出兩個新的特征表示,分別是中心向量和半徑向量,對中心向量和半徑向量進行采樣獲得新的向量表示,隨后作為隱向量輸入到一個含有5層全連接層的神經(jīng)網(wǎng)絡(luò)(其中每層都施加Dropout機制,前3層的激活函數(shù)采用Relu,第4層的激活函數(shù)采用Tanh,最后一層不使用激活函數(shù))來預(yù)測基因表達(dá)譜的變化,這里使用均方誤差作為損失函數(shù),并采用Adam作為優(yōu)化算法。模型框架如下圖所示:
DELEPS模型框架圖
4
實驗
4.1 預(yù)測結(jié)果
本文采用Pearson相關(guān)系數(shù)作為評價指標(biāo)來評估模型的性能,并通過設(shè)置不同的Pearson相關(guān)系數(shù)閾值來計算平均Pearson相關(guān)系數(shù)作為模型性能指標(biāo);模型的訓(xùn)練集和測試集的不同Pearson相關(guān)系數(shù)閾值繪制的類似于ROC曲線如下圖(a)和(b)所示:
4.2 案例分析
本文為了驗證DLEPS系統(tǒng)的有效性,進行尋找肥胖、高尿酸血癥以及非酒精性脂肪肝炎三種疾病的潛在治療藥物實驗,并構(gòu)建小鼠模型來驗證系統(tǒng)的預(yù)測結(jié)果,結(jié)果表明系統(tǒng)具有通用性,可以預(yù)測多種疾病藥物分子。
1)對于肥胖疾病,本文將DLEPS預(yù)測出的前幾種候選藥物分子喂入小鼠體內(nèi),通過觀察小鼠的肥胖狀況來篩選出治療肥胖疾病的潛在藥物分子。
注入潛在的藥物分子后小鼠體重變化圖
2)對于高尿酸血癥(hyperuricemia), 本文將DLEPS預(yù)測的幾種候選藥物分子在小鼠體內(nèi)進行生物實驗,從而篩選出潛在的治療高尿酸血癥藥物分子。
使用候選藥物治療高尿酸血癥小鼠體內(nèi)的血尿酸水平情況
3)對于非酒精性脂肪性肝炎,本文將DLEPS預(yù)測的幾種候選藥物分子在小鼠體內(nèi)進行生物實驗,從而篩選出潛在的抗非酒精性脂肪性肝炎藥物分子。
注射不同藥物分子14天之后小鼠體內(nèi)血清中ALT(丙氨酸氨基轉(zhuǎn)移酶)和AST(天冬氨酸氨基轉(zhuǎn)移酶)水平
5
總結(jié)
基于靶標(biāo)-蛋白的藥物發(fā)現(xiàn)方法面臨著許多疾病的通路機制不清楚的困難,為了克服這一困難,本文提出了一個基于深度學(xué)習(xí)的藥效預(yù)測系統(tǒng)(DLEPS),該系統(tǒng)利用復(fù)雜疾病的基因指紋信息來預(yù)測潛在疾病藥物分子,使用超過百萬個基因指紋和與這些基因指紋信息有關(guān)聯(lián)的17051個結(jié)構(gòu)多樣的小分子數(shù)據(jù)進行訓(xùn)練和測試,其中測試集的Pearson相關(guān)系數(shù)達(dá)到0.74,并對三種疾病進行了案例分析,通過構(gòu)建小鼠模型來驗證DLEPS系統(tǒng)預(yù)測的這三種疾病的藥物分子,結(jié)果表明該系統(tǒng)具有通用性,可以預(yù)測多種疾病藥物分子,也給理解疾病的通路機制帶來新視角。
參考資料
Zhu, J., Wang, J., Wang, X. et al. Prediction of drug efficacy from transcriptional profiles with deep learning. Nat Biotechnol (2021).
https://doi.org/10.1038/s41587-021-00946-z
代碼
https://github.com/kekegg/DLEPS
往期精品(點擊圖片直達(dá)文字對應(yīng)教程)
后臺回復(fù)“生信寶典福利第一波”或點擊閱讀原文獲取教程合集




























