推薦一個(gè)關(guān)鍵詞提取工具yake
github地址:https://github.com/LIAAD/yake
隨著信息的復(fù)雜性和規(guī)模的增長,從文本中提取關(guān)鍵字已成為個(gè)人和組織的挑戰(zhàn)。自動(dòng)化此任務(wù)以便可以及時(shí),適當(dāng)?shù)靥幚砦谋镜男枨髮?dǎo)致了自動(dòng)關(guān)鍵字提取工具的出現(xiàn)。盡管取得了進(jìn)步,但仍然明顯缺乏使用多語言在線工具從單個(gè)文檔中自動(dòng)提取關(guān)鍵字的功能。呀!是用于多語言關(guān)鍵字提取的一種新穎的基于功能的系統(tǒng),該系統(tǒng)支持不同大小,域或語言的文本。與其他方法不同,Yake!既不依賴于字典,也不依賴詞庫,也不接受任何語料庫的培訓(xùn)。相反,它遵循一種無監(jiān)督的方法,該方法建立在從文本中提取的特征的基礎(chǔ)上,因此,它適用于以不同語言編寫的文檔,而無需進(jìn)一步的知識(shí)。這對(duì)于大量任務(wù)和過多情況下的訓(xùn)練語料庫訪問受到限制或限制可能是有益的
yoke是一種輕量級(jí)無監(jiān)督自動(dòng)關(guān)鍵字提取方法,它基于從單個(gè)文檔中提取的文本統(tǒng)計(jì)特征來選擇文本中最重要的關(guān)鍵字。我們的系統(tǒng)不需要針對(duì)特定的文檔集進(jìn)行培訓(xùn),也不必依賴于字典,外部語料庫,文本大小,語言或領(lǐng)域。為了展示我們建議的優(yōu)點(diǎn)和重要性,我們將其與十種最新的無監(jiān)督方法(TF.IDF,KP-Miner,RAKE,TextRank,SingleRank,ExpandRank,TopicRank,TopicalalPageRank,PositionRank和MultipartiteRank)進(jìn)行比較,以及一種監(jiān)督方法(KEA)。在20個(gè)數(shù)據(jù)集之上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,在許多不同大小的集合下,yoke明顯優(yōu)于其他方法。
input:
import yake
text = '''
"Conta-me Histórias." Xutos inspiram projeto premiado. A plataforma "Conta-me Histórias" foi distinguida com o Prémio Arquivo.pt, atribuído a trabalhos inovadores de investiga??o ou aplica??o de recursos preservados da Web, através dos servi?os de pesquisa e acesso disponibilizados publicamente pelo Arquivo.pt . Nesta plataforma em desenvolvimento, o utilizador pode pesquisar sobre qualquer tema e ainda executar alguns exemplos predefinidos. Como forma de garantir a pluralidade e diversidade de fontes de informa??o, esta s?o utilizadas 24 fontes de notícias eletrónicas, incluindo a TSF. Uma vers?o experimental (beta) do "Conta-me Histórias" está disponível aqui.
A plataforma foi desenvolvida por Ricardo Campos investigador do LIAAD do INESC TEC e docente do Instituto Politécnico de Tomar, Arian Pasquali e Vitor Mangaravite, também investigadores do LIAAD do INESC TEC, Alípio Jorge, coordenador do LIAAD do INESC TEC e docente na Faculdade de Ciências da Universidade do Porto, e Adam Jatwot docente da Universidade de Kyoto.
'''
custom_kw_extractor = yake.KeywordExtractor(lan="pt")
keywords = custom_kw_extractor.extract_keywords(text)
for kw in keywords:print(kw)
output:
('conta-me histórias', 0.006225012963810038)
('liaad do inesc', 0.01899063587015275)
('inesc tec', 0.01995432290332246)
('conta-me', 0.04513273690417472)
('histórias', 0.04513273690417472)
('prémio arquivo.pt', 0.05749361520927859)
('liaad', 0.07738867367929901)
('inesc', 0.07738867367929901)
('tec', 0.08109398065524037)
('xutos inspiram projeto', 0.08720742489353424)
('inspiram projeto premiado', 0.08720742489353424)
('adam jatwot docente', 0.09407053486771558)
('arquivo.pt', 0.10261392141666957)
('alípio jorge', 0.12190479662535166)
('ciências da universidade', 0.12368384021490342)
('ricardo campos investigador', 0.12789997272332762)
('politécnico de tomar', 0.13323587141127738)
('arian pasquali', 0.13323587141127738)
('vitor mangaravite', 0.13323587141127738)
('preservados da web', 0.13596322680882506)
