<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          本周優(yōu)秀開源項目分享,Python ML的核心數(shù)據(jù)框、無模型中文 NLP 工具包 等7大開源項目

          共 2974字,需瀏覽 6分鐘

           ·

          2020-08-01 02:23


          01

          ?vaex 適用于Python,ML的核心數(shù)據(jù)框

          Vaex是一個高性能Python庫,用于懶惰的Out-of-Core DataFrame(類似于Pandas),以可視化和探索大型表格數(shù)據(jù)集。


          它在N維網(wǎng)格上以每秒超過十億(10 ^ 9)的樣本/行計算統(tǒng)計數(shù)據(jù),例如平均值,總和,計數(shù),標準差等。


          可視化使用直方圖,密度圖和3d體積渲染完成,從而允許交互式探索大數(shù)據(jù)。


          Vaex使用內(nèi)存映射,零內(nèi)存復制策略和惰性計算來獲得最佳性能(不浪費內(nèi)存)。


          關(guān)鍵特性:

          即時打開龐大數(shù)據(jù)文件(內(nèi)存映射)

          核外數(shù)據(jù)框

          快速分組/聚合

          快速高效的合并

          集成到Jupyter和Voila中以實現(xiàn)交互式筆記本和儀表板


          項目地址:

          https://github.com/vaexio/vaex/


          02?

          ?Semantic-Search 使用Transformers等進行語義搜索


          使用感知嵌入的簡單應用程序可以將文檔投影到高維空間中,并使用余弦相似度找到大多數(shù)相似度。


          目的是演示和比較模型。要進行大規(guī)模部署,必須計算并保存文檔嵌入,以快速搜索和計算相似性。


          第一次加載需要很長時間,因為該應用程序?qū)⑾螺d所有模型。除了運行6個模型外,即使在CPU中,推理時間也是可以接受的。



          演示文本包含有關(guān)每個主題的4個句子:Apple,操作系統(tǒng),Java和Python。


          可能會看到語義搜索效果很好,只過濾了有關(guān)特定查詢的文檔,即使查詢中文檔中沒有俗套的單詞也是如此。


          項目地址:

          https://github.com/renatoviolin/Semantic-Search


          03?

          ?JioNLP 無模型中文 NLP 工具包

          JioNLP 是一個提供常用 NLP 功能的工具包,宗旨是直接提供方便快捷的解析、詞典類、深度學習模型加速的面向中文的工具接口,并提供一步到位的查閱入口。幫助開發(fā)者解決基礎(chǔ)的 NLP 需求和操作。


          功能主要包括:文本清洗,去除HTML標簽、異常字符、冗余字符,轉(zhuǎn)換全角字母、數(shù)字、空格為半角,抽取及刪除E-mail及域名、電話號碼、QQ號、括號內(nèi)容、身份證號、IP地址、URL超鏈接、貨幣金額與單位,解析身份證號信息、手機號碼歸屬地、座機區(qū)號歸屬地,按行快速讀寫文件,(多功能)停用詞過濾,(優(yōu)化的)分句,地址解析,新聞地域識別,繁簡體轉(zhuǎn)換,漢字轉(zhuǎn)拼音,漢字偏旁、字形、四角編碼拆解,基于詞典的情感分析,色情數(shù)據(jù)過濾,反動數(shù)據(jù)過濾,關(guān)鍵短語抽取,成語詞典、歇后語詞典、新華字典、新華詞典、停用詞典、中國地名詞典、世界地名詞典,基于詞典的NER,NER的字、詞級別轉(zhuǎn)換,NER的entity和tag格式轉(zhuǎn)換,NER模型的預測階段加速并行工具集,NER標注和模型預測的結(jié)果差異對比,NER標注數(shù)據(jù)集分割與統(tǒng)計,文本分類標注數(shù)據(jù)集的分割與統(tǒng)計。


          特性:

          正則抽取與解析

          文件讀寫工具

          詞典加載與使用

          實體識別(NER)算法輔助工具集

          文本分類


          項目地址:

          https://github.com/dongrixinyu/JioNLP


          04?
          ?deepdow 通過深度學習優(yōu)化投資組合


          deepdow是一個Python包,用于投資項目組合優(yōu)化和深度學習。它的目標是促進對在一個前向計算中執(zhí)行權(quán)重分配的網(wǎng)絡的研究。


          deepdow嘗試合并投資組合優(yōu)化中兩個非常常見的步驟:

          預測市場的未來發(fā)展(LSTM,GARCH等)

          優(yōu)化問題設計和解決方案(凸優(yōu)化,...)


          它通過構(gòu)造層流水線來實現(xiàn)。最后一層執(zhí)行分配,所有先前的層充當特征提取器。整個網(wǎng)絡是完全可微的,可以通過梯度下降算法優(yōu)化其參數(shù)。


          特性:

          所有層都建立在torch上并且完全可區(qū)分;

          集成了可微凸優(yōu)化(cvxpylayers);

          實現(xiàn)基于聚類的投資組合分配算法;

          多種數(shù)據(jù)加載策略(RigidDataLoader,F(xiàn)lexibleDataLoader);

          通過回調(diào)與mlflow和tensorboard集成;

          提供各種損失,例如銳化比,最大跌幅,...;

          易于擴展和定制;

          CPU和GPU支持。


          項目地址:

          https://github.com/jankrepl/deepdow


          05

          ? detr Transformers端對端物體檢測


          PyTorch訓練代碼和DETR(DEtection TRansformer)的預訓練模型。我們用Transformer代替了整個復雜的手工物體檢測管道,并用ResNet-50匹配了Faster R-CNN,使用一半的計算能力(FLOP)和相同數(shù)量的參數(shù)在COCO上獲得了42個AP。在PyTorch的50行中進行推斷。


          與傳統(tǒng)的計算機視覺技術(shù)不同,DETR將對象檢測作為直接設置的預測問題。它由基于集合的全局損失(通過二分匹配強制唯一預測)和Transfromer編碼器-解碼器體系結(jié)構(gòu)組成。


          給定固定的學習對象查詢集,則DETR會考慮對象與全局圖像上下文之間的關(guān)系,以直接并行并行輸出最終的預測集。由于這種并行性質(zhì),DETR非常快速和高效。


          我們認為,對象檢測不應該比分類困難,也不需要復雜的庫來進行訓練和推理。DETR的實現(xiàn)和實驗非常簡單,我們提供了一個獨立的Colab筆記本,展示了如何僅用幾行PyTorch代碼進行DETR推理。


          訓練代碼遵循了這個想法-它不是一個庫,而是一個帶有標準訓練循環(huán)的main.py導入模型和標準定義。



          項目地址:

          https://github.com/facebookresearch/detr


          06

          ? FinancialDatasets 金融文本數(shù)據(jù)集


          推薦研究方向:

          Embedding (Word2Vec, Bert, 等)

          實體識別 - NER

          無監(jiān)督聚類: 基于企業(yè)描述信息, 進行競品聚類

          企業(yè)行業(yè)分類

          標題總結(jié) - Text Summary

          序列分類 - Sequence Classification


          項目地址:

          https://github.com/smoothnlp/FinancialDatasets


          07

          ? mmfashion 基于PyTorch的用于視覺時尚分析的開源工具箱


          MMFashion是一個基于PyTorch的開源視覺時尚分析工具箱。這是香港中文大學多媒體實驗室開發(fā)的開放式mmlab項目的一部分。



          項目特性:

          靈活:模塊化設計,易于擴展

          友好:外行用戶的現(xiàn)成模型

          全面:支持各種時裝分析任務


          功能:

          時尚屬性預測

          時尚識別與檢索

          時尚地標檢測

          時尚解析和細分

          時尚兼容性和推薦


          項目地址:

          https://github.com/open-mmlab/mmfashion

          七月在線【從零實戰(zhàn)目標檢測】課程

          一網(wǎng)打盡:從 Mask RCNN到Y(jié)olo v4



          共6大實戰(zhàn)項目


          課程大綱如下


          CV博士授課



          在售價399元的課程,今天大家可以使用優(yōu)惠券按照299元購買,有興趣的小伙伴抓緊搶購,先報先占位!


          優(yōu)惠券:?645A777EDB

          購買流程:

          復制優(yōu)惠券>掃描二維碼>點擊直接購買>點擊優(yōu)惠券>輸入優(yōu)惠券


          掃碼搶占名額???


          (報名過程中,有任何問題請加客服微信:julyedukefu12)


          閱讀原文”查看課程詳情!

          瀏覽 53
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天躁日日躁狠狠躁喷水 | 久久久91精品国产一区陈可心 | 亲子乱一区二区 | 色香蕉网 | 国产精品久久丫 |