ArXiv170萬篇論文數(shù)據(jù)集上線Kaggle!

大數(shù)據(jù)文摘出品
學(xué)術(shù)圈的朋友對ArXiv肯定都不陌生。
?
在將近30年的時間里,ArXiv通過公開訪問學(xué)術(shù)文章為公眾和研究社區(qū)提供了一個更高效的學(xué)術(shù)成果溝通平臺,從物理學(xué)到計算機科學(xué)的許多子學(xué)科,以及介于兩者之間的所有內(nèi)容,包括數(shù)學(xué),統(tǒng)計學(xué),電氣工程,定量生物學(xué),和經(jīng)濟學(xué)。
?
在當今全球面臨獨特挑戰(zhàn)的時代,從數(shù)據(jù)中有效提取見解至關(guān)重要。而在數(shù)據(jù)圈,Kaggle是數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師尋求有趣的數(shù)據(jù)集的最大寶藏之地:這里有各種notebook和競賽,相關(guān)從業(yè)者和研究人員可以利用Kaggle提供的數(shù)據(jù)探索工具,輕松地與他人共享相關(guān)腳本和輸出。
?
那么,二者結(jié)合會產(chǎn)生什么化學(xué)效應(yīng)呢?
?
為幫助使arXiv更加易于訪問,aixiv近日宣布,向Kaggle提供機器可讀的arXiv數(shù)據(jù)集!
?
鏈接:
目前,arXiv開放給kaggle的內(nèi)容非常豐富,包括170萬篇文章,其相關(guān)功能包括文章標題,作者,類別,摘要,全文PDF等。
?
該數(shù)據(jù)集數(shù)據(jù)量級高達1.1TB,并且還會持續(xù)更新。包含的內(nèi)容如下:
?
id:arXiv ID; submitter; authors; title; comments; journal-ref; doi; abstract; categories; versions。
?
實習(xí)/全職編輯記者招聘ing
加入我們,親身體驗一家專業(yè)科技媒體采寫的每個細節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長。坐標北京·清華東門,在大數(shù)據(jù)文摘主頁對話頁回復(fù)“招聘”了解詳情。簡歷請直接發(fā)送至[email protected]

