數(shù)據(jù)派THU
0獲贊0關(guān)注0粉絲
“全國(guó)數(shù)標(biāo)委”正式成立!
2024年10月28日,全國(guó)數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)(以下簡(jiǎn)稱“全國(guó)數(shù)標(biāo)委”)成立大會(huì)暨第一次全體委員會(huì)議在京召開。全國(guó)數(shù)標(biāo)委正式成立。國(guó)家數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)工作正式邁入新進(jìn)程。2024年10月28日,全國(guó)數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)成立大會(huì)暨第一次全體委員會(huì)議在京召開。國(guó)家數(shù)據(jù)局黨組書記、局長(zhǎng)劉烈宏出席成立大會(huì)并
數(shù)據(jù)派THU
0
機(jī)器學(xué)習(xí)中空間和時(shí)間自相關(guān)的分析:從理論基礎(chǔ)到實(shí)踐應(yīng)用
來源:DeepHub IMBA本文3800字,建議閱讀7分鐘本文探討了空間和時(shí)間自相關(guān)在野火風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用??臻g和時(shí)間自相關(guān)是數(shù)據(jù)分析中的兩個(gè)基本概念,它們揭示了現(xiàn)象在空間和時(shí)間維度上的相互依賴關(guān)系。這些概念在各個(gè)領(lǐng)域都有廣泛應(yīng)用,從環(huán)境科學(xué)到城市規(guī)劃,從流行病學(xué)到經(jīng)濟(jì)學(xué)。本文將探討這些概念的理論
數(shù)據(jù)派THU
0
活動(dòng)預(yù)告丨Python科研應(yīng)用分享會(huì)——Python數(shù)據(jù)科學(xué)應(yīng)用
第三期 Python科研應(yīng)用分享會(huì) 10月29日周二晚19:00重磅來襲! 本次活動(dòng)為第三期【Python科研應(yīng)用分享會(huì)】,我們非常榮幸地邀請(qǐng)到自動(dòng)化系優(yōu)秀博士生陳鵬宇同學(xué)為我們分享Python編程入門知識(shí),并設(shè)有提問環(huán)節(jié),為同學(xué)們答疑解惑。講座簡(jiǎn)介本系列講座由五道口
數(shù)據(jù)派THU
0
【博士論文】高效且有效的基礎(chǔ)大型多模態(tài)模型學(xué)習(xí)
來源:專知本文約1000字,建議閱讀5分鐘大型多模態(tài)模型(LMMs)的研究已經(jīng)成為深度學(xué)習(xí)領(lǐng)域的重點(diǎn),展示了其在當(dāng)代研究中的重要性。LMMs能夠處理來自不同模態(tài)的數(shù)據(jù),通過利用互補(bǔ)信息來執(zhí)行多種任務(wù),從而提高預(yù)測(cè)能力。LMMs的學(xué)習(xí)過程分為兩個(gè)關(guān)鍵階段:計(jì)算密集的預(yù)訓(xùn)練階段,旨在從大規(guī)模的噪聲數(shù)據(jù)中
數(shù)據(jù)派THU
0
信息論、機(jī)器學(xué)習(xí)的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及應(yīng)用
來源:DeepHub IMBA???本文約4000字,建議閱讀10+分鐘本文將深入探討KL散度及其他相關(guān)的重要散度概念。在信息論、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域中,KL散度(Kullback-Leibler散度)作為一個(gè)基礎(chǔ)概念,在量化概率分布差異方面發(fā)揮著關(guān)鍵作用。它常用于衡量當(dāng)一個(gè)概率分布用于近似另一個(gè)概
數(shù)據(jù)派THU
0
【MIT博士論文】稀疏和低秩矩陣優(yōu)化在機(jī)器學(xué)習(xí)應(yīng)用中的進(jìn)展
來源:專知本文約1000字,建議閱讀5分鐘本論文推動(dòng)了稀疏和低秩矩陣優(yōu)化理論和應(yīng)用的發(fā)展,聚焦于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中出現(xiàn)的相關(guān)問題。在運(yùn)籌學(xué)、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的眾多基礎(chǔ)問題中,自然形成了基數(shù)或秩約束的優(yōu)化問題。稀疏解因其可解釋性和存儲(chǔ)優(yōu)勢(shì)而受到青睞。此外,在機(jī)器學(xué)習(xí)背景下,稀疏解不僅能提高模型的泛化能
數(shù)據(jù)派THU
0
獨(dú)家 | 花8小時(shí)學(xué)習(xí)Parquet的發(fā)現(xiàn)
作者:Vu Trinh翻譯:陳之炎校對(duì):zrx本文約4300字,建議閱讀8分鐘本文為你簡(jiǎn)要介紹Parquet的數(shù)據(jù)結(jié)構(gòu)。標(biāo)簽:數(shù)據(jù)工程 數(shù)據(jù)分析 軟件工程 大數(shù)據(jù)存儲(chǔ)最終,我靜下心來學(xué)習(xí)Parquet。由作者創(chuàng)建本圖片引言想象如果我有一個(gè)待辦事項(xiàng)列表,里面包含了我想寫的話題,Apache Parqu
數(shù)據(jù)派THU
0
Nat. Commun. | 利用統(tǒng)計(jì)學(xué)驅(qū)動(dòng)的圖網(wǎng)絡(luò)準(zhǔn)確預(yù)測(cè)蛋白質(zhì)功能
來源:DrugAI本文約4000字,建議閱讀5分鐘在本論文中,作者提出了一種方法,利用統(tǒng)計(jì)驅(qū)動(dòng)的圖網(wǎng)絡(luò)僅從序列中預(yù)測(cè)蛋白質(zhì)功能。今天為大家介紹的是來自Benoit Kornmann團(tuán)隊(duì)的一篇論文。理解蛋白質(zhì)功能對(duì)于掌握許多關(guān)鍵生物活動(dòng)背后的復(fù)雜機(jī)制至關(guān)重要,并在醫(yī)學(xué)、生物技術(shù)和藥物開發(fā)等領(lǐng)域具有深遠(yuǎn)
數(shù)據(jù)派THU
0
貝葉斯回歸入門:輕松掌握概率思維的強(qiáng)大工具
來源:數(shù)據(jù)分析學(xué)習(xí)與實(shí)踐本文約3500字,建議閱讀9分鐘本文深入探討Transformer模型中三種關(guān)鍵的注意力機(jī)制:自注意力、交叉注意力和因果自注意力。在實(shí)踐中運(yùn)行 MCMC 采樣算法資本資產(chǎn)定價(jià)模型(CAPM)是一種金融模型,有助于根據(jù)與整體市場(chǎng)相比的風(fēng)險(xiǎn)水平預(yù)測(cè)投資的預(yù)期收益。CAPM 回歸是
數(shù)據(jù)派THU
1
【博士論文】隨機(jī)逼近在黎曼流形和度量空間上的應(yīng)用
來源:專知本文約1000字,建議閱讀5分鐘本論文通過當(dāng)代視角重新探索了隨機(jī)逼近方法,重點(diǎn)研究其在非歐幾里得空間中的動(dòng)態(tài)特性和長(zhǎng)期行為。隨機(jī)逼近方法是一類迭代算法,在涉及噪聲和不完整觀測(cè)的應(yīng)用中起著至關(guān)重要的作用。該方法起源于Robbins和Monro(1951年)以及Kiefer和Wolfowitz
數(shù)據(jù)派THU
0
【NeurIPS2024】面向視覺-語言模型測(cè)試時(shí)泛化的雙原型演化
來源:專知本文約1000字,建議閱讀5分鐘我們提出了雙原型演化 (Dual Prototype Evolving, DPE),這是一種新的VLMs測(cè)試時(shí)自適應(yīng)方法,可以有效地從多模態(tài)中累積任務(wù)特定知識(shí)。測(cè)試時(shí)自適應(yīng) (Test-time adaptation) 使模型能夠在無標(biāo)簽測(cè)試樣本下
數(shù)據(jù)派THU
0
如何處理多頻段時(shí)序特征?這個(gè)Transformer變體顯著提升預(yù)測(cè)效果
來源:時(shí)序人??本文約2300字,建議閱讀9分鐘研究者為了驗(yàn)證 Fredformer 模型的有效性,設(shè)計(jì)了一系列的實(shí)驗(yàn)。Transformer 模型已在時(shí)間序列預(yù)測(cè)中展現(xiàn)了卓越的性能。然而,在一些復(fù)雜場(chǎng)景中,它傾向于學(xué)習(xí)數(shù)據(jù)中的低頻特征,而忽略了高頻特征,表現(xiàn)出一種頻率偏差。這種偏差阻礙了模型準(zhǔn)確捕
數(shù)據(jù)派THU
0
數(shù)據(jù)準(zhǔn)備指南:10種基礎(chǔ)特征工程方法的實(shí)戰(zhàn)教程
?來源:Deephub Imba本文約5000字,建議閱讀9分鐘本文深入探討Transformer模型中三種關(guān)鍵的注意力機(jī)制:自注意力、交叉注意力和因果自注意力。在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域,從原始數(shù)據(jù)中提取有價(jià)值的信息是一個(gè)關(guān)鍵步驟。這個(gè)過程不僅有助于輔助決策,還能預(yù)測(cè)未來趨勢(shì)。為了實(shí)現(xiàn)這一目標(biāo),特征
數(shù)據(jù)派THU
1
【NeurIPS2024】MoTE:在視覺語言到視頻知識(shí)轉(zhuǎn)移中協(xié)調(diào)泛化與專門化
來源:專知本文約1000字,建議閱讀5分鐘在本文中,我們提出了MoTE,一個(gè)新穎的框架,能夠在一個(gè)統(tǒng)一的模型中平衡泛化和專門化。從大規(guī)模基礎(chǔ)模型中轉(zhuǎn)移視覺語言知識(shí)以用于視頻識(shí)別已經(jīng)被證明是有效的。為了彌合領(lǐng)域差距,額外的參數(shù)模塊被添加以捕捉時(shí)間信息。然而,隨著專用參數(shù)數(shù)量的增加,零樣本泛化能力逐漸減
數(shù)據(jù)派THU
0
獨(dú)家 | 如何為GenAI應(yīng)用程序選擇架構(gòu)
作者:Lak Lakshamanan翻譯:陳之炎校對(duì):ZRX本文約6200字,建議閱讀10+分鐘本文將描述一個(gè)框架,助力實(shí)現(xiàn)多因素之間的平衡。標(biāo)簽:LLM,智能體,設(shè)計(jì)模式選取最簡(jiǎn)單、最快、最便宜的架構(gòu),以平衡LLMs的創(chuàng)造力和風(fēng)險(xiǎn)。假設(shè)希望LLM生成一封感謝信,首先需要查看LLM教程,按照教程中建
數(shù)據(jù)派THU
0
干貨 | 清華Python編程入門分享會(huì)第一期
本次分享會(huì)是由清華大學(xué)五道口金融學(xué)院和大數(shù)據(jù)協(xié)會(huì)聯(lián)合舉辦的系列講座,以初級(jí)python入門為主,是為非計(jì)算機(jī)非數(shù)據(jù)科學(xué)專業(yè),但有助于學(xué)習(xí)編程的同學(xué)量身定制的精品講座。目標(biāo)是為未來數(shù)據(jù)分析人才配備先進(jìn)的編程理念和操作技巧,強(qiáng)化學(xué)科研究能力,促進(jìn)跨學(xué)科交流與合作?;顒?dòng)分為三期,第一期由自動(dòng)化系優(yōu)秀博士生
數(shù)據(jù)派THU
0
獨(dú)家|如何在數(shù)十億用戶中高效檢索賬號(hào)名是否已經(jīng)存在?
作者:Aditi Mishra翻譯:wwl校對(duì):zrx本文約3000字,建議閱讀7分鐘在這篇文章中,我們將探討三種方法:傳統(tǒng)的數(shù)據(jù)庫(kù)查詢、使用Redis的緩存策略以及使用布隆過濾器的優(yōu)化方法。簡(jiǎn)介你是否遇到過注冊(cè)APP時(shí),發(fā)現(xiàn)你偏好的賬戶名已經(jīng)被注冊(cè)了?雖然這看起來可能只是一個(gè)小小的麻煩,但對(duì)于處理
數(shù)據(jù)派THU
0
VisionTS:基于時(shí)間序列的圖形構(gòu)建高性能時(shí)間序列預(yù)測(cè)模型,利用圖像信息進(jìn)行時(shí)間序列預(yù)測(cè)
來源:DeepHub IMBA本文約4000字,建議閱讀10+分鐘VisionTS作為一種創(chuàng)新的時(shí)間序列基礎(chǔ)模型,在預(yù)測(cè)任務(wù)中展現(xiàn)出了卓越的性能。構(gòu)建預(yù)訓(xùn)練時(shí)間序列模型時(shí)面臨的主要挑戰(zhàn)是什么?獲取高質(zhì)量、多樣化的時(shí)間序列數(shù)據(jù)。目前構(gòu)建基礎(chǔ)預(yù)測(cè)模型主要有兩種方法:遷移學(xué)習(xí)LLM:通過針對(duì)時(shí)間序列任務(wù)定
數(shù)據(jù)派THU
0
【NTU博士論文】面向可信賴的推薦系統(tǒng):構(gòu)建可解釋且無偏的推薦系統(tǒng)
來源:專知本文約1000字,建議閱讀5分鐘本研究重點(diǎn)探討了可信賴推薦系統(tǒng)中的兩個(gè)重要方面:可解釋性和公平性,并旨在開發(fā)一個(gè)透明且無偏的推薦系統(tǒng),以提高推薦系統(tǒng)的透明度和公平性。面向可信賴推薦系統(tǒng):構(gòu)建可解釋且無偏的推薦系統(tǒng)https://dr.ntu.edu.sg/handle/10356/1757
數(shù)據(jù)派THU
0
快訊 | 2024中國(guó)高校計(jì)算機(jī)大賽——大數(shù)據(jù)挑戰(zhàn)賽晉級(jí)復(fù)賽隊(duì)伍揭曉
7月25日,經(jīng)過初賽階段的激烈角逐,2024中國(guó)高校計(jì)算機(jī)大賽——大數(shù)據(jù)挑戰(zhàn)賽進(jìn)入復(fù)賽的參賽隊(duì)伍名單已經(jīng)出爐。本次大賽旨在通過算法比拼激發(fā)數(shù)據(jù)處理與分析的新思路,探索氣象大數(shù)據(jù)的奧秘,促進(jìn)大數(shù)據(jù)技術(shù)的創(chuàng)新與應(yīng)用。大賽吸引了來自全國(guó)各地的高校學(xué)生和企業(yè)在職人員的積極參與,共有386所高校的1777支隊(duì)
數(shù)據(jù)派THU
0
獨(dú)家 | 線性代數(shù):每個(gè)數(shù)據(jù)科學(xué)家的必知概念(下)
作者:Benedict Neo翻譯:陳之炎校對(duì):ZRX本文約2900字,建議閱讀8分鐘本文將探討上述線性代數(shù)概念、視覺解釋和代碼示例。本文(上篇)目錄向量單位向量向量操作向量相加標(biāo)量相乘點(diǎn)積向量空間零空間(核)張成空間基線性獨(dú)立本文(下篇)目錄矩陣矩陣作為函數(shù)線性變換逆矩陣奇異矩陣單位矩陣對(duì)角矩陣&
數(shù)據(jù)派THU
0
多模態(tài)可控?cái)U(kuò)散模型綜述
來源:專知本文約1500字,建議閱讀5分鐘本綜述提供了一個(gè)全面的分類框架,總結(jié)了擴(kuò)散模型圖像合成中各種形式的控制技術(shù)和策略,并探討了可控生成在不同應(yīng)用場(chǎng)景中的實(shí)踐。研究背景 近年來,人工智能領(lǐng)域經(jīng)歷了跨越式發(fā)展,其中生成模型在計(jì)算機(jī)視覺、自然語言處理和強(qiáng)化學(xué)習(xí)等多個(gè)領(lǐng)域取得了長(zhǎng)足進(jìn)步。生成
數(shù)據(jù)派THU
0
徹底改變語言模型:全新架構(gòu)TTT超越Transformer,ML模型代替RNN隱藏狀態(tài)
來源:機(jī)器之心??本文約3200字,建議閱讀5分鐘本文介紹了一種全新的大語言模型(LLM)架構(gòu)有望代替至今在 AI 領(lǐng)域如日中天的 Transformer。從 125M 到 1.3B 的大模型,性能都有提升。難以置信,這件事終于發(fā)生了。一種全新的大語言模型(LLM)架構(gòu)有望代替至今在 AI 領(lǐng)域如日
數(shù)據(jù)派THU
0
獨(dú)家 | 線性代數(shù):每個(gè)數(shù)據(jù)科學(xué)家的必知概念(上)
作者:Benedict Neo翻譯:陳之炎校對(duì):ZRX本文約2500字,建議閱讀8分鐘本文將探討上述線性代數(shù)概念、視覺解釋和代碼示例。你對(duì)線性代數(shù)有足夠的了解嗎?線性代數(shù)是所有數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)任務(wù)的基石, 它是將理論模型轉(zhuǎn)化為實(shí)際解決方案的語言, 它體現(xiàn)了能夠利用算法從數(shù)據(jù)中學(xué)
數(shù)據(jù)派THU
2
【阿姆斯特丹博士論文】深度學(xué)習(xí)在醫(yī)療數(shù)據(jù)中的應(yīng)用
來源:專知本文為論文介紹,建議閱讀5分鐘這篇論文重新審視了深度學(xué)習(xí)的基本組成部分,并評(píng)估了它們?cè)卺t(yī)學(xué)圖像分析中的應(yīng)用。這篇論文重新審視了深度學(xué)習(xí)的基本組成部分,并評(píng)估了它們?cè)卺t(yī)學(xué)圖像分析中的應(yīng)用。論文指出了深度學(xué)習(xí)在這一領(lǐng)域的三個(gè)主要挑戰(zhàn):專家知識(shí)的整合、未標(biāo)記數(shù)據(jù)的利用以及預(yù)測(cè)不確定性的估計(jì)。論文
數(shù)據(jù)派THU
0
谷歌重磅:告別RAG,長(zhǎng)上下文的大語言模型無需檢索增強(qiáng)
來源:夕小瑤科技說 機(jī)器學(xué)習(xí)算法與自然語言處理本文約2600字,建議閱讀10分鐘長(zhǎng)上下文語言模型通過LOFT基準(zhǔn)測(cè)試,展現(xiàn)出無需檢索增強(qiáng)(RAG)的強(qiáng)大能力。當(dāng)今人工智能領(lǐng)域正在經(jīng)歷一場(chǎng)靜默的革命。隨著大語言模型(LLM)的快速發(fā)展,它們不僅能夠處理更長(zhǎng)的上下文,還展現(xiàn)出驚人的推理和檢索能
數(shù)據(jù)派THU
0
年薪五十萬起,大模型公司偏愛哪種畢業(yè)生 | AI光年
來源:深網(wǎng)ID:qqshenwang?????????本文約4500字,建議閱讀5分鐘本文介紹了年薪50萬大模型公司偏愛的畢業(yè)生。????圖片來源:視覺中國(guó)特約作者丨鄭佳妮 編輯丨葉錦言出品丨深網(wǎng)·騰訊新聞小滿工作室編者按:自從OpenAI打開了生成式AI的潘多拉魔盒,大模型依然是20
數(shù)據(jù)派THU
1
【SIGIR2024教程】基于大語言模型的信息檢索代理
來源:專知本文為論文介紹,建議閱讀5分鐘在本教程中,我們將深入探討LLM驅(qū)動(dòng)代理在各種信息檢索領(lǐng)域中的前沿技術(shù)。信息檢索的核心目標(biāo)已不僅僅是將用戶與其搜索的相關(guān)信息連接起來,還包括豐富連接的多樣性、個(gè)性化和互動(dòng)性,確保信息檢索過程在全球數(shù)字時(shí)代中盡可能無縫、有效和支持性。目前的信息檢索系統(tǒng)通常面臨一
數(shù)據(jù)派THU
0
效率高,無需標(biāo)簽,谷歌團(tuán)隊(duì)用AI挖掘臨床數(shù)據(jù),改善基因發(fā)現(xiàn)和疾病預(yù)測(cè),登Nature子刊
來源:ScienceAI本文約2500字,建議閱讀5分鐘近日,Google Research 的基因組學(xué)團(tuán)隊(duì)在利用 HDCD 表征疾病和生物學(xué)特征方面取得了進(jìn)展?,F(xiàn)代醫(yī)療保健系統(tǒng)會(huì)產(chǎn)生大量高維臨床數(shù)據(jù) (HDCD),例如肺功能圖、光體積變化描記圖法 (PPG)、心電圖 (ECG) 記錄、CT 掃描和
數(shù)據(jù)派THU
0
