cola,一個做consensus clustering的R包
今天和大家分享是我這個月發(fā)表的一個Bioconductor工具,叫做cola。它提供一個普遍的框架,用來做consensus clustering。Bioconductor鏈接為https://bioconductor.org/packages/cola/,論文鏈接為https://doi.org/10.1093/nar/gkaa1146。
在cola框架中,consensus clustering被標(biāo)準(zhǔn)化為若干個步驟,其中某些關(guān)鍵步驟中,用戶可以自定義自己的方法。如下圖所示:

我提出了一個簡單但是有效的方法,稱作為ATC方法,用來提取有用的feature,用以clustering。這個ATC方法是基于輸入矩陣的全局相關(guān)系。你可以看到在下圖中(第一行的四個熱圖),四個不同方法所提取的top features,ATC方法提取的top feature能夠更有效的生成穩(wěn)定的clustering(第四個熱圖)。

我同樣提出建議使用shperical k-means clustering (skmeans)對ATC所提取的features進(jìn)行聚類,我展示了skmeans一般來說能夠揭示更多的subgroups,并且分類具有更高的穩(wěn)定性。
在論文中,我使用了超過400個公共數(shù)據(jù)集對不同的聚類方法進(jìn)行了比較。我也對consesus clustering中的關(guān)鍵參數(shù)的選擇進(jìn)行了系統(tǒng)性的比較,例如是對行進(jìn)行隨機抽取還是對列進(jìn)行隨機抽取,和隨機抽取的次數(shù)對結(jié)果的影響。
在論文中,我應(yīng)用cola在基因表達(dá)數(shù)據(jù)和DNA甲基化數(shù)據(jù)上。結(jié)果建議對不同類型的數(shù)據(jù)應(yīng)該選擇不同的參數(shù)和方法,不能寬泛的使用相同的數(shù)據(jù)(例如缺省的參數(shù))。
cola包支持同時運行多個聚類方法,并且cola提供了大量的函數(shù)用以對結(jié)果進(jìn)行比較。下圖是cola所生成一些圖:

cola提供了強大的函數(shù)集,但是同時也提供了一個簡單易用的用戶接口。也就是說,在大多數(shù)情況下,用戶只需要執(zhí)行下面兩行代碼,然后cola會自動運行所有分析,并且將所有結(jié)果生成到一個HTML報告中,并且這個HTML報告中也包含了代碼,是完全可以reproducable的。
rl?=?run?all?consensus?partition?methods(matrix,?...)
cola?report(rl,?...)
最后,歡迎大家使用!
往期精品(點擊圖片直達(dá)文字對應(yīng)教程)
后臺回復(fù)“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

?
(請備注姓名-學(xué)校/企業(yè)-職務(wù)等)



























