終于有人把自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和AI講明白了

導(dǎo)讀:本文將帶你了解自然語(yǔ)言處理的概念、應(yīng)用,以及與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能之間的關(guān)系。
作者:卡蒂克·雷迪·博卡(Karthiek Reddy Bokka)、舒班吉·霍拉(Shubhangi Hora)、塔努吉·賈因(Tanuj Jain)、莫尼卡·瓦姆布吉(Monicah Wambugu)來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)

01 自然語(yǔ)言處理的基礎(chǔ)知識(shí)
為了便于理解,我們將這個(gè)術(shù)語(yǔ)分為兩部分:
- 自然語(yǔ)言是一種有機(jī)且自然發(fā)展而來(lái)的書(shū)面和口頭交流形式。?
- 處理意味著使用計(jì)算機(jī)分析和理解輸入數(shù)據(jù)。
如圖1-1所示,自然語(yǔ)言處理是人類語(yǔ)言的機(jī)器處理,旨在教授機(jī)器如何處理和理解人類的語(yǔ)言,從而在人與機(jī)器之間建立一個(gè)簡(jiǎn)單的溝通渠道。
▲圖1-1 自然語(yǔ)言處理自然語(yǔ)言處理的應(yīng)用很廣泛,例如,在我們的手機(jī)和智能音箱中的個(gè)人語(yǔ)音助手,如Alexa和Siri。它們不僅能夠理解我們的說(shuō)話內(nèi)容,而且能夠根據(jù)我們說(shuō)的話采取行動(dòng),并做出反饋。自然語(yǔ)言處理算法促進(jìn)了這種與人類溝通的技術(shù)。
在上述自然語(yǔ)言處理定義中要考慮的關(guān)鍵是:溝通需要以人類的自然語(yǔ)言進(jìn)行。幾十年來(lái),我們一直在與機(jī)器溝通:創(chuàng)建程序來(lái)執(zhí)行某些任務(wù)并執(zhí)行。
然而,這些程序是用非自然語(yǔ)言編寫(xiě)的,因?yàn)樗鼈儾皇强陬^交流的形式,也不是自然或有機(jī)發(fā)展而來(lái)的。這些語(yǔ)言,例如Java、Python、C和C ++,都是在主要考慮機(jī)器的情況下創(chuàng)建的,并且始終考慮的是“機(jī)器能夠輕松理解和處理的是什么?”?
雖然Python是一種對(duì)用戶更加友好的語(yǔ)言,且易于學(xué)習(xí)和編碼,但與機(jī)器溝通,人類必須學(xué)習(xí)機(jī)器能夠理解的語(yǔ)言。自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系如圖1-2所示。
▲圖1-2 自然語(yǔ)言處理的維恩圖自然語(yǔ)言處理的目的與此相反。自然語(yǔ)言處理不是以人類順應(yīng)機(jī)器的方式學(xué)習(xí)如何有效地與它們溝通,而是使機(jī)器能夠與人類保持一致,并學(xué)習(xí)人類的交流方式。其意義更為重大,因?yàn)榧夹g(shù)的目的本來(lái)就是讓我們的生活更為輕松。
我們用一個(gè)例子來(lái)澄清這一點(diǎn),你的第一個(gè)程序是一段讓機(jī)器打印“hello world”代碼。這是你順應(yīng)機(jī)器并要求它用其理解的語(yǔ)言執(zhí)行任務(wù)。
通過(guò)向其發(fā)出這個(gè)命令來(lái)要求你的語(yǔ)音助手說(shuō)“hello world”,并做出“hello world”的反饋,就是自然語(yǔ)言處理應(yīng)用的一個(gè)例子,因?yàn)槟阌米匀徽Z(yǔ)言與機(jī)器通信。機(jī)器符合你的溝通形式,理解你所說(shuō)的內(nèi)容,處理你要求它執(zhí)行的操作,然后執(zhí)行任務(wù)。
02 自然語(yǔ)言處理的重要性
圖1-3說(shuō)明了人工智能領(lǐng)域的各個(gè)部分。
▲圖1-3 人工智能及其一些子領(lǐng)域與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)一樣,自然語(yǔ)言處理是人工智能的一個(gè)分支,因?yàn)槠涮幚碜匀徽Z(yǔ)言,所以它實(shí)際上是人工智能和語(yǔ)言學(xué)的交叉。
如上所述,自然語(yǔ)言處理使機(jī)器能夠理解人類的語(yǔ)言,從而在兩者之間建立有效的溝通渠道。然而,自然語(yǔ)言處理的必要性還有另一個(gè)原因。那就是,像機(jī)器一樣,機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型對(duì)數(shù)值數(shù)據(jù)最有效。數(shù)值數(shù)據(jù)對(duì)人類來(lái)說(shuō)很難自然產(chǎn)生。很難想象我們用數(shù)字而不是語(yǔ)言交談。
因此,自然語(yǔ)言處理與文本數(shù)據(jù)一起工作,并將其轉(zhuǎn)換成數(shù)值數(shù)據(jù),從而使機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型能夠適用于文本數(shù)據(jù)。因此,它的存在是為了通過(guò)從人類那里獲取語(yǔ)言的口頭和書(shū)面形式,并將它們轉(zhuǎn)換成機(jī)器能夠理解的數(shù)據(jù),來(lái)彌合人類和機(jī)器之間的交流差距。
得益于自然語(yǔ)言處理,機(jī)器能夠理解并回答基于自然語(yǔ)言的問(wèn)題、解決使用自然語(yǔ)言的問(wèn)題以及用自然語(yǔ)言交流等。
03 自然語(yǔ)言處理的能力
自然語(yǔ)言處理有許多有益于人類生活的現(xiàn)實(shí)應(yīng)用。這些應(yīng)用程序?qū)儆谧匀徽Z(yǔ)言處理的三大功能:
1. 語(yǔ)音識(shí)別
機(jī)器能夠識(shí)別自然語(yǔ)言的口語(yǔ)形式,并將其翻譯成文本形式。比如智能手機(jī)上的聽(tīng)寫(xiě),你可以啟用聽(tīng)寫(xiě)功能并對(duì)著手機(jī)說(shuō)話,它會(huì)將你所說(shuō)的一切轉(zhuǎn)換成文本。
2. 自然語(yǔ)言理解
機(jī)器能夠理解自然語(yǔ)言的口語(yǔ)和書(shū)面語(yǔ)。如果給機(jī)器一個(gè)命令,它就能理解并執(zhí)行。例如,在你的手機(jī)上對(duì)Siri說(shuō)“嘿,Siri,打電話回家”,Siri就會(huì)自動(dòng)為你打電話回家。
3. 自然語(yǔ)言生成
機(jī)器能夠自己生成自然語(yǔ)言。例如,在手機(jī)上對(duì)Siri說(shuō)“Siri,現(xiàn)在幾點(diǎn)了?”Siri回復(fù)說(shuō):“現(xiàn)在是下午2:08”。
這三種能力用于完成和自動(dòng)化許多任務(wù)。讓我們來(lái)看看自然語(yǔ)言處理的一些應(yīng)用。
注意:文本數(shù)據(jù)被稱為語(yǔ)料庫(kù)(corpora)或一個(gè)語(yǔ)料(corpus)。
04 自然語(yǔ)言處理中的應(yīng)用
圖1-4描述了自然語(yǔ)言處理的一般應(yīng)用領(lǐng)域。
▲圖1-4 自然語(yǔ)言處理的應(yīng)用領(lǐng)域1. 自動(dòng)文摘
包括對(duì)語(yǔ)料庫(kù)生成摘要。
2. 翻譯
要求有翻譯工具,以從不同的語(yǔ)言翻譯文本,例如,谷歌翻譯。
3. 情感分析
這也被稱為情感的人工智能或意見(jiàn)挖掘,它是從書(shū)面和口頭語(yǔ)料庫(kù)中識(shí)別、提取和量化情感和情感狀態(tài)的過(guò)程。情感分析工具用于處理諸如客戶評(píng)論和社交媒體帖子之類的事情,以理解對(duì)特定事物的情緒反應(yīng)和意見(jiàn),比如新餐廳的菜品質(zhì)量。
4. 信息提取
這是從語(yǔ)料庫(kù)中識(shí)別并提取重要術(shù)語(yǔ)的過(guò)程,稱為實(shí)體。命名實(shí)體識(shí)別屬于這一類,將在下一章中解釋。
5. 關(guān)系提取
關(guān)系提取包括從語(yǔ)料庫(kù)中提取語(yǔ)義關(guān)系。語(yǔ)義關(guān)系發(fā)生在兩個(gè)或多個(gè)實(shí)體(如人、組織和事物)之間屬于許多語(yǔ)義類別之一。
例如,如果一個(gè)關(guān)系提取工具被賦予了關(guān)于Sundar Pichai的內(nèi)容,以及他是谷歌的CEO,該工具將能夠生成“Sundar Pichai就職于谷歌”作為輸出,Sundar Pichai和谷歌是兩個(gè)實(shí)體,“就職于”是定義它們之間關(guān)系的語(yǔ)義類別。
6. 聊天機(jī)器人
聊天機(jī)器人是人工智能的一種形式,被設(shè)計(jì)成通過(guò)語(yǔ)音和文本與人類交流。它們中的大多數(shù)模仿人,使你覺(jué)得在和另一個(gè)人說(shuō)話。聊天機(jī)器人在健康產(chǎn)業(yè)被用于幫助患有抑郁癥和焦慮癥的人。
7. 社交媒體分析
社交媒體的應(yīng)用,如Twitter和Facebook,都有標(biāo)簽和趨勢(shì),并使用自然語(yǔ)言處理來(lái)跟蹤和監(jiān)控這些標(biāo)簽和趨勢(shì),以了解世界各地正在交談的話題。此外,自然語(yǔ)言通過(guò)過(guò)濾負(fù)面的、攻擊性的和不恰當(dāng)?shù)脑u(píng)論和帖子來(lái)幫助優(yōu)化過(guò)程。
8. 個(gè)人語(yǔ)音助理
Siri、Alexa、谷歌助手以及Cortana都是個(gè)人語(yǔ)音助理,充分利用自然語(yǔ)言處理技術(shù)來(lái)理解和回應(yīng)我們。
9. 語(yǔ)法檢查
語(yǔ)法檢查軟件會(huì)自動(dòng)檢查和糾正你的語(yǔ)法、標(biāo)點(diǎn)和拼寫(xiě)錯(cuò)誤。
關(guān)于作者:卡蒂克·雷迪·博卡(Karthiek Reddy Bokka),語(yǔ)音和音頻機(jī)器學(xué)習(xí)工程師,畢業(yè)于南加州大學(xué),目前在波特蘭的 Bi-amp Systems公司工作。他的興趣包括深度學(xué)習(xí)、數(shù)字信號(hào)和音頻處理、自然語(yǔ)言處理以及計(jì)算機(jī)視覺(jué)。舒班吉·霍拉(Shubhangi Hora),Python開(kāi)發(fā)者、人工智能愛(ài)好者和作家。她有計(jì)算機(jī)科學(xué)和心理學(xué)背景,對(duì)與心理健康相關(guān)的人工智能特別感興趣。塔努吉·賈因(Tanuj Jain),在德國(guó)公司工作的數(shù)據(jù)科學(xué)家。他一直在開(kāi)發(fā)深度學(xué)習(xí)模型,并將其投入生產(chǎn)以商用。他對(duì)自然語(yǔ)言處理特別感興趣,并將自己的專業(yè)知識(shí)應(yīng)用于分類和情感評(píng)級(jí)任務(wù)。莫尼卡·瓦姆布吉(Monicah Wambugu),金融技術(shù)公司的首席數(shù)據(jù)科學(xué)家,該公司通過(guò)利用數(shù)據(jù)、機(jī)器學(xué)習(xí)和分析來(lái)提供小額貸款,以執(zhí)行替代信用評(píng)分。她是加州大學(xué)伯克利分校信息管理與系統(tǒng)碩士研究生。
本文摘編自《基于深度學(xué)習(xí)的自然語(yǔ)言處理》,經(jīng)出版方授權(quán)發(fā)布。
延伸閱讀《基于深度學(xué)習(xí)的自然語(yǔ)言處理》點(diǎn)擊上圖了解及購(gòu)買轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData
推薦語(yǔ):關(guān)于基于深度學(xué)習(xí)的自然語(yǔ)言處理的基礎(chǔ)知識(shí)大全,內(nèi)容全面且新穎,講解專業(yè)且規(guī)范,是走上精通深度學(xué)習(xí)與自然語(yǔ)言處理之路的優(yōu)秀范本。

劃重點(diǎn)?
干貨直達(dá)?
更多精彩?
在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞查看更多優(yōu)質(zhì)內(nèi)容!
PPT?|?讀書(shū)?|?書(shū)單?|?硬核?|?干貨?|?講明白大數(shù)據(jù)?|?云計(jì)算?|?數(shù)據(jù)庫(kù)?|?Python?|?可視化?|?神操作AI?|?人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP5G?|?中臺(tái)?|?用戶畫(huà)像?|?1024?|?大神?|?數(shù)學(xué)?|?揭秘
據(jù)統(tǒng)計(jì),99%的大咖都完成了這個(gè)神操作?

評(píng)論
圖片
表情
