AI大模型之路 第二篇: Word2Vec介紹
共 1745字,需瀏覽 4分鐘
·
2024-04-17 21:27
你好,我是郭震
今天我來總結(jié)大模型第二篇,word2vec,它是大模型的根基,一切NLP都會用到它。
Word2Vec
Word2Vec 是一種流行的自然語言處理(NLP)工具,它通過將詞匯表中的每個單詞轉(zhuǎn)換成一個獨特的高維空間向量,使得這些詞向量能夠在數(shù)學(xué)上表示它們的語義關(guān)系。
這種方法對于后續(xù)的深度學(xué)習(xí)模型和NLP的發(fā)展具有重大意義,因為它提供了一種有效的方式來表達(dá)文本數(shù)據(jù),并使得基于文本的應(yīng)用(如機(jī)器翻譯、情感分析、信息檢索等)的實現(xiàn)變得更加高效和準(zhǔn)確。
發(fā)展影響:
-
語義理解的提升:Word2Vec訓(xùn)練出的向量能夠捕捉詞語之間的多種關(guān)系,如同義、反義等,這使得機(jī)器能更好地理解語言的深層含義。 -
深度學(xué)習(xí)的推動:Word2Vec的推出加速了深度學(xué)習(xí)技術(shù)在NLP領(lǐng)域的應(yīng)用,為后來的模型如BERT、GPT等復(fù)雜的語言模型奠定了基礎(chǔ)。 -
詞向量方法的創(chuàng)新:Word2Vec的成功推動了其它類型的詞嵌入方法的研發(fā),比如GloVe(Global Vectors for Word Representation)和FastText。
基本原理
Word2Vec有兩種架構(gòu):CBOW(Continuous Bag of Words)和Skip-gram。
-
CBOW:這種方法預(yù)測目標(biāo)單詞基于上下文。例如,在“the cat sits on the”中,CBOW使用“the”、“cat”、“sits”、“on”、“the”作為輸入來預(yù)測“mat”這個詞。
-
Skip-gram:與CBOW相反,它用一個單詞來預(yù)測上下文。例如,給定單詞“sits”,模型將會嘗試預(yù)測它周圍的單詞如“the”、“cat”、“on”、“the”。
訓(xùn)練過程:
-
使用神經(jīng)網(wǎng)絡(luò)作為訓(xùn)練模型,輸入層為一個獨熱編碼的向量,通過隱藏層(不使用激活函數(shù)的全連接層)將此向量映射到低維空間中,輸出層則根據(jù)模型架構(gòu)(CBOW或Skip-gram)來決定。 -
訓(xùn)練目標(biāo)是最小化實際輸出和預(yù)期輸出之間的差異,通常使用softmax函數(shù)進(jìn)行分類任務(wù)。
案例講解
假設(shè)我們有一個簡單的句子:"the quick brown fox jumps over the lazy dog",并且我們選擇Skip-gram模型進(jìn)行詞向量的訓(xùn)練。我們可以挑選“fox”作為輸入詞,上下文窗口大小為2:
-
輸入:"fox" -
預(yù)測的上下文:"quick"、"brown"、"jumps"、"over"
訓(xùn)練步驟:
-
對“fox”進(jìn)行獨熱編碼。 -
使用Word2Vec模型預(yù)測“fox”的上下文詞。 -
通過調(diào)整模型權(quán)重來最小化預(yù)測誤差,使得模型可以更準(zhǔn)確地預(yù)測到“fox”的正確上下文。
通過大量的數(shù)據(jù)和迭代訓(xùn)練,每個單詞的向量都會逐漸調(diào)整到能夠準(zhǔn)確反映它與其他詞語的語義關(guān)系的位置。
這些向量之后可以用于各種機(jī)器學(xué)習(xí)模型和NLP應(yīng)用,從而實現(xiàn)更復(fù)雜的語言處理任務(wù)。接下來大模型第三篇,我會講解word2vec的神經(jīng)網(wǎng)絡(luò)訓(xùn)練代碼,歡迎關(guān)注。
我將Python與AI技術(shù)錄制為視頻,已上線700多節(jié)課,還會持續(xù)更新,我本人答疑,助力提升你的AI與Python更全面,更好幫你找工作和兼職賺錢。想做這些事情的,可以長按下面二維碼查看,想咨詢或已報名聯(lián)系我,gz113097485
