<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          單個(gè)基因集富集分析泡泡圖繪制

          共 3164字,需瀏覽 7分鐘

           ·

          2021-05-15 08:22

          富集分析是生物信息分析中快速了解目標(biāo)基因或目標(biāo)區(qū)域功能傾向性的最重要方法之一。其中代表性的計(jì)算方式有兩種:

          一是基于篩選的差異基因,采用超幾何檢驗(yàn)判斷上調(diào)或下調(diào)基因在哪些GO或KEGG或其它定義的通路富集。假設(shè)背景基因數(shù)目為t,背景基因中某一通路pathway中注釋的基因有m個(gè);上調(diào)基因有k個(gè),上調(diào)基因中落于通路pathway的數(shù)目為q。簡(jiǎn)單來講就是比較q/k是否顯著高于m/t,即上調(diào)基因中落在通路pathway的比例是否高于背景基因在這一通路的比例。(實(shí)際計(jì)算時(shí),是算的odds ratio的差異,q/(k-q) vs (m-q)/(t-k-m+q))。這就是常說的GO富集分析或KEGG富集分析,可以做的工具很多,GOEAST是其中一個(gè)最好用的在線功能富集分析工具,數(shù)據(jù)庫(kù)更新實(shí)時(shí),操作簡(jiǎn)單,并且可以直接用之前介紹的方法繪制DotPlot

          另一種方式是不硬篩選差異基因,而是對(duì)其根據(jù)表達(dá)量或與表型的相關(guān)度排序,然后判斷對(duì)應(yīng)的基因集是否傾向于落在有序列表的頂部或底部,從而判斷基因集合對(duì)表型差異的影響和篩選有影響的基因子集。這叫GSEA富集分析,注釋信息可以是GO,KEGG,也可以是其它任何符合格式的信息。GSEA富集分析 - 界面操作詳細(xì)講述了GSEA分析的原理、可視化操作和結(jié)果解讀。

          具體原理解釋見我們?cè)贐站的免費(fèi)視頻:易生信轉(zhuǎn)錄組高級(jí)課程系列節(jié)選

          GOEAST結(jié)果繪制富集分析泡泡圖 

          單個(gè)基因集富集結(jié)果展示 

          去東方,最好用的在線GO富集分析工具一文中介紹了一款高引用、操作簡(jiǎn)單、數(shù)據(jù)庫(kù)每周同步更新的在線富集工具GOEAST,很受好評(píng)。美中不足的是,這個(gè)工具不能輸出泡泡圖。下面我們展示下如何用GOEAST輸出的富集結(jié)果表格自行篩選條目繪制富集分析泡泡圖。

          GOEAST輸出的表格內(nèi)容如下 (geneIDs    symbols 列內(nèi)容較長(zhǎng),此處沒用到,故未展示):

          GOID    Ontology    Term    Level    q    m    t    k    log_odds_ratio    p
          GO:0006730 biological_process one-carbon metabolic process 4 34 57 45240 13378 1.012309306 0.001481151
          GO:0007154 biological_process cell communication 2 2169 6843 45240 13378 0.100137585 0.007326261
          GO:0007165 biological_process signal transduction 5 1955 6136 45240 13378 0.107606604 0.006325629
          GO:0023052 biological_process signaling 1 2100 6613 45240 13378 0.102820905 0.006590727
          GO:0044700 biological_process single organism signaling 2 2100 6613 45240 13378 0.102820905 0.006590727
          GO:0050896 biological_process response to stimulus 1 3251 10438 45240 13378 0.074846633 0.012472089
          GO:0005515 molecular_function protein binding 1 3299 10399 45240 13378 0.101392361 3.32E-05
          GO:0005794 cellular_component Golgi apparatus 6 611 1835 45240 13378 0.171200701 0.057432963
          GO:0012505 cellular_component endomembrane system 2 1521 4648 45240 13378 0.146146563 0.000353056
          GO:0071944 cellular_component cell periphery 2 2059 6559 45240 13378 0.086204434 0.065663723

          我們先看下其中幾列的含義是什么:

          • q: 用于分析的基因集中匹配到該通路的基因數(shù)目

          • m: 背景基因集中落在該通路的基因數(shù)目

          • t: 背景基因集中總的基因數(shù)目

          • k: 用于分析的基因集中總的基因數(shù)目

          • p: 富集顯著性值(FDR,多重假設(shè)檢驗(yàn)校正后的p-value)

          • log_odds_ratio: 富集比,具體見上面基礎(chǔ)部分

          富集分析泡泡圖實(shí)際是一種散點(diǎn)圖,這個(gè)圖怎么繪制需要我們先理解這個(gè)圖每一部分的含義。理解了圖,剩下的就是把對(duì)應(yīng)列的信息賦值到圖上。

          我們先把數(shù)據(jù)導(dǎo)入平臺(tái)http://www.ehbio.com/Cloud_Platform/front/#/analysis?page=b%27MTA%3D%27,

          選擇一些參數(shù),體會(huì)下它們?cè)趫D上的體現(xiàn)和意義。

          然后選擇參數(shù)

          • log_odds_ratio列作為橫軸(X-axis)信息

          • Term列作為縱軸(Y-axis)信息

          這兩列就確定了點(diǎn)的分布,下面三個(gè)參數(shù)是給點(diǎn)的屬性賦值

          • 統(tǒng)計(jì)顯著性p列作為Color variable,給每個(gè)點(diǎn)根據(jù)數(shù)值大小進(jìn)行上色,從顏色上區(qū)分富集顯著性

          • q列用于設(shè)置點(diǎn)的大小Point size variable,點(diǎn)越大表示目標(biāo)基因集中落在對(duì)應(yīng)通路的基因越多

          • Neg log10 transform variable是指定哪個(gè)變量進(jìn)行對(duì)數(shù)轉(zhuǎn)換,這是可選參數(shù),但通常我們會(huì)對(duì)p-value列做這個(gè)轉(zhuǎn)換。

            轉(zhuǎn)換后越小的p-value值就會(huì)變得越大

          提交后,獲得結(jié)果圖如下:

          圖中每個(gè)點(diǎn)代表一個(gè)富集的條目,在Y軸有對(duì)應(yīng)標(biāo)記。這些條目按其log_odds_ratio的值排序后展示,log_odds_ratio高的條目在Y軸上方展示;每個(gè)點(diǎn)的大小代表用于分析的基因集中匹配到該通路的基因數(shù)目,顏色代表富集程度。

          但這個(gè)圖中,點(diǎn)的大小有些太分散,顏色是綠色飽和度越高表示富集越顯著,可能跟常規(guī)認(rèn)知不同。修改兩個(gè)參數(shù):

          • Variable for be transformed in square root way選擇q,通過平方根降低數(shù)據(jù)之間的差距

          • 設(shè)置顏色 Manual color vector (color set)OrRd

          獲得結(jié)果如下

          往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)

          機(jī)器學(xué)習(xí)

          后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集

          瀏覽 15
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文字幕在线播放av | 河南首富 越来越富 | 天天无码高清 | 婷婷五月天激情小说视频 | 欧美日韩在线免费观看视频 |