微軟大模型Phi3安裝和介紹,普通電腦不聯(lián)網(wǎng)也能提問!
共 2390字,需瀏覽 5分鐘
·
2024-05-07 08:15
你好,我是郭震
1 前沿
最近,微軟發(fā)布Phi-3模型,最小尺寸的phi-3-mini(3.8B參數(shù)量)在更大、更干凈的數(shù)據(jù)集(包含3.3T個tokens)上進(jìn)行訓(xùn)練,在各大公開的學(xué)術(shù)基準(zhǔn)和內(nèi)部測試中,實(shí)現(xiàn)了與Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。
模型小,phi-3-mini的尺寸也足夠小,可以部署在手機(jī)上離線使用,這樣讓每個人在本地部署大模型成為可能。
功能不錯。此前發(fā)布Phi-2時,微軟已經(jīng)證實(shí)了「基于LLM的web數(shù)據(jù)過濾」和「LLM合成數(shù)據(jù)」的結(jié)合,使得2.7B參數(shù)量的Phi-2可以匹敵25倍參數(shù)量大模型的性能。
這篇論文的鏈接:https://arxiv.org/pdf/2404.14219.pdf
2 phi-3介紹
phi-3一共三個版本,最小尺寸版本為phi-3-mini,基礎(chǔ)模型的參數(shù)量為3.8B,采用Transformer解碼器架構(gòu),默認(rèn)上下文長度為4K,加長版(phi-3-mini-128K)通過LongRope技術(shù)將上下文擴(kuò)展至128K.
模型參數(shù)設(shè)置上,隱藏層維度為3072、具有32個頭、總共32層,使用bfloat16訓(xùn)練了3.3T個tokens
2.1 上下文長度
有些老鐵可能不知道什么是上下文長度,我解釋下。上下文窗口指的是模型一次可以處理的最大文本長度。這個長度通常用“tokens”(標(biāo)記)來表示,每個標(biāo)記可以是一個單詞、子詞或單個字符,具體取決于編碼方式。
4K 上下文窗口:表示模型可以一次處理最多4096 個標(biāo)記。對應(yīng)的實(shí)際字符數(shù)取決于具體文本內(nèi)容和標(biāo)記化方式。
上下文窗口大小決定了模型在回答問題或生成文本時可以利用的上下文范圍。窗口越大,模型就能處理越長的上下文,對理解長文本內(nèi)容非常重要。
長文本處理:較大的窗口允許模型處理更長的文本片段,從而提高在長文本任務(wù)中的表現(xiàn),如長篇對話、文檔生成和分析等。
2.2 LongRope介紹
LongRope 是一種技術(shù),可以擴(kuò)展 transformer 模型的上下文窗口,從而處理更長的輸入文本。傳統(tǒng)的 transformer 模型使用固定的相對位置編碼,通常無法擴(kuò)展到超過模型設(shè)計時的上下文窗口大小。LongRope 技術(shù)試圖解決這一問題,通過擴(kuò)展位置編碼的范圍,使 transformer 模型可以處理超長的文本輸入。
2.3 LongRope關(guān)鍵技術(shù)
LongRope 技術(shù)的關(guān)鍵特性是擴(kuò)展位置編碼:LongRope 技術(shù)通過增加位置編碼的范圍,將其適應(yīng)于比傳統(tǒng)位置編碼更長的文本。可以允許模型處理多達(dá)數(shù)十萬 token 的上下文。
兼容性:LongRope 技術(shù)可以與 transformer 架構(gòu)兼容,無需對模型架構(gòu)進(jìn)行重大修改。適用于多種 transformer 模型,易于集成。
保持模型性能:即使擴(kuò)展了上下文窗口,LongRope 也努力保持模型的性能和效率,確保處理長文本時的準(zhǔn)確性和速度。
3 訓(xùn)練方法
模型的訓(xùn)練遵循「Textbooks Are All You Need」的工作序列,利用高質(zhì)量的訓(xùn)練數(shù)據(jù)來提升小型語言模型的性能,同時突破了標(biāo)準(zhǔn)的規(guī)模法則(scaling-laws):phi-3-mini僅用3.8B的總參數(shù)量,就能達(dá)到GPT-3.5或Mixtral等高性能模型的水平(Mixtral的總參數(shù)量為45B)。
模型的訓(xùn)練數(shù)據(jù)來源多樣,涵蓋經(jīng)過精挑細(xì)選的開放互聯(lián)網(wǎng)數(shù)據(jù)和由大型語言模型生成的合成數(shù)據(jù)。
預(yù)訓(xùn)練由兩個獨(dú)立且連續(xù)的階段組成:
第一階段:主要使用互聯(lián)網(wǎng)資源,旨在培養(yǎng)模型的通用知識和語言理解能力;
第二階段:使用更嚴(yán)格篩選的互聯(lián)網(wǎng)數(shù)據(jù)(第一階段數(shù)據(jù)的精選子集)和部分合成數(shù)據(jù),旨在提升模型的邏輯推理和專業(yè)技能。
4 后處理
后處理 在phi-3-mini的訓(xùn)練后處理中,主要包括兩個階段:
-
有監(jiān)督微調(diào)(SFT)
SFT使用了經(jīng)過精心策劃的、跨多個不同領(lǐng)域的高質(zhì)量數(shù)據(jù),包括數(shù)學(xué)、編程、邏輯推理、對話、模型特性和安全性等,在訓(xùn)練初期只使用英語的樣本。
-
直接偏好優(yōu)化(DPO)
DPO的數(shù)據(jù)則包括了聊天格式的數(shù)據(jù)、邏輯推理任務(wù),以及負(fù)責(zé)任的人工智能(RAI)相關(guān)的工作。
5 使用體驗(yàn)
使用 ollama 運(yùn)行下面一行命令:ollama run phi3
一共文件2.3G,安裝完成后,就可以在命令窗口直接提問,我的win電腦是40N卡,回復(fù)速度非常快。無需聯(lián)網(wǎng),直接在本地不限次,不限流量的訪問和使用:
如果覺得這個命令窗口交互不友好,還可以配備一個前端界面,詳細(xì)的教程在我的公眾號后臺,發(fā)送消息,lobe,免費(fèi)領(lǐng)取前端配置教程。
在我自己電腦部署后,我在前端頁面訪問phi-3-mini,回復(fù)速度很快,質(zhì)量也很高,比如問它,雞兔同籠問題:
叫它寫一首關(guān)于母親的散文詩:
整理體驗(yàn)不錯,會有些瑕疵,但不影響,免費(fèi)一直使用,GPT4一個月可是20美元。
我們?yōu)殚_源大模型點(diǎn)贊。
2 公眾號發(fā)消息: gpt,免費(fèi)獲取《GPT使用指南》.PDF
