數(shù)據(jù)科學|數(shù)據(jù)科學中的信息理論方法

自1948年引入信息論以來,信息論已被證明在分析與壓縮、存儲和傳輸數(shù)據(jù)有關(guān)的問題方面起著重要作用。例如,信息論允許分析數(shù)據(jù)通信和壓縮的基本限制,并在幾十年的實際通信系統(tǒng)設(shè)計中發(fā)揮了作用。近年來,在使用信息理論方法解決數(shù)據(jù)壓縮、數(shù)據(jù)通信和網(wǎng)絡(luò)之外的問題方面出現(xiàn)了復興,例如壓縮感知、數(shù)據(jù)獲取、數(shù)據(jù)分析、機器學習、圖挖掘、社區(qū)檢測、隱私和公平。在這本書中,我們探索了信號處理、機器學習、學習理論和統(tǒng)計的接口上的一系列廣泛的問題,其中源自信息論的工具和方法可以提供類似的好處。幾十年來,信息論在這一界面上的作用確實得到了承認。一個突出的例子是在1980年代使用互信息、度量熵和容量等信息理論量來建立估計的極大極小率。在這里,我們打算探索這個界面的現(xiàn)代應(yīng)用,這些應(yīng)用正在塑造21世紀的數(shù)據(jù)科學。
當然,標準信息理論工具與信號處理或數(shù)據(jù)分析方法之間有一些顯著的差異。從整體上說,信息論傾向于關(guān)注漸近極限,使用大的塊長度,并假設(shè)數(shù)據(jù)是由有限的比特數(shù)表示,并通過一個噪聲信道觀看。標準結(jié)果不關(guān)心復雜性,而是更多地關(guān)注通過可實現(xiàn)性和反向結(jié)果表征的基本限制。另一方面,一些信號處理技術(shù),如采樣理論,專注于離散時間表示,但不一定假設(shè)數(shù)據(jù)是量化的或系統(tǒng)中有噪聲。信號處理通常關(guān)注的是最優(yōu)的具體方法,即達到開發(fā)的極限,并具有有限的復雜性。因此,很自然地將這些工具結(jié)合起來,以解決更廣泛的問題和分析,包括量化、噪聲、有限樣本和復雜性分析。
這本書的目的是為新興的數(shù)據(jù)科學問題的信息理論方法的最近的應(yīng)用提供一個綜述。本書的潛在讀者可能是信息理論、信號處理、機器學習、統(tǒng)計學、應(yīng)用數(shù)學、計算機科學或相關(guān)研究領(lǐng)域的研究人員,或?qū)で罅私庑畔⒗碚摵蛿?shù)據(jù)科學并在此界面上找出開放問題的研究生。本卷的特殊設(shè)計確保它可以作為研究人員和學生的教科書的最先進的參考。
這本書包含了16個不同的章節(jié),由世界范圍內(nèi)公認的領(lǐng)先專家撰寫,涵蓋了信號處理、數(shù)據(jù)科學和信息論界面上的各種各樣的主題 。本書以信息理論的介紹作為其余章節(jié)的背景開始,也設(shè)置了貫穿全書使用的符號。接下來的章節(jié)被分為四類: 數(shù)據(jù)獲取(第2-4章),數(shù)據(jù)表示和分析(第5-9章),信息論和機器學習(第10和11章),以及信息論、統(tǒng)計和壓縮(第12-15章)。最后一章,第16章,通過對范諾不等式在一系列數(shù)據(jù)科學問題中的調(diào)研,將本書的幾個主題聯(lián)系起來。章節(jié)是獨立的,涵蓋了各自主題的最新研究結(jié)果,并且可以彼此獨立地處理。





需要書籍的朋友,添加我的微信,告訴我:信息論
我創(chuàng)建了數(shù)據(jù)科學群,歡迎大家加入群,備注:DS。我的微信:shushengya360
我提供付費咨詢和服務(wù)。
你我連接,相互交流,創(chuàng)造更多價值。
—END—
? 你或許還想看
喜歡本文點個在看
或關(guān)注下方公眾號
公眾號:數(shù)據(jù)科學與人工智能
作者:陸勤
金融科技行業(yè)數(shù)據(jù)科學工作者。
解決信貸業(yè)務(wù)風控和營銷問題。
喜歡寫點東西,有一顆利他之心。
提供付費咨詢和服務(wù)。
