大模型中的Token,一文讀懂
共 2633字,需瀏覽 6分鐘
·
2024-07-13 11:31
Token是大模型最基礎(chǔ)、最常見的概念,如何翻譯沒有定論,“標(biāo)記”“詞”“令牌”都有,復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院邱錫鵬教授將其翻譯為“詞元”,個(gè)人認(rèn)為比較恰當(dāng)。
眾所周知,大語言模型訓(xùn)練語料數(shù)量、上下文的限制、生成速度都用Token表示。
比如:
-
通義千問-7B使用超過2.4萬億tokens的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練, -
模型后面帶著8k、32k,就是指在生成響應(yīng)或進(jìn)行預(yù)測(cè)時(shí)最大文本長(zhǎng)度 -
評(píng)估大模型生成速度的TPS,指的是每秒輸出token數(shù)
Token是指語言模型中用來表示中文漢字、英文單詞、或中英文短語的符號(hào)。
Token可以是單個(gè)字符,也可以是多個(gè)字符組成的序列。
網(wǎng)上各種資料,關(guān)于一個(gè) token是多少漢字說法不一。
最為知名的大模型ChatGPT,模型使用Byte Pair Encoding (BPE,一種子詞分詞方法,可以將詞語進(jìn)一步劃分為更小的可重復(fù)部分)進(jìn)行文本編碼,這種編碼方式在處理不同語言時(shí)的效率可能會(huì)有所不同。
GPT-3:每詞輸出最高上限為2049個(gè)Token,大約可以寫出1000字的中文文章、1720字的英文文章 GPT-4:每詞輸出最高上限為32768個(gè)Token,約是16056個(gè)中文字、25000個(gè)英文字
對(duì)于漢語等字形語言,一個(gè)token可能只包含一個(gè)字符,但對(duì)于英語等詞素語言,一個(gè)token可能包含一個(gè)或多個(gè)單詞。
OpenAI官方文檔中介紹:“1000個(gè)token通常代表750個(gè)英文單詞或500個(gè)漢字。1 個(gè)token大約為 4 個(gè)字符或 0.75 個(gè)單詞。”
1個(gè)字母=1個(gè)字符,舉例,hello=5字符
1個(gè)漢字=1個(gè)字符,舉例,你好=2字符
這里有OpenAI官方的token計(jì)算工具 : https://platform.openai.com/tokenizer
就如剛才所說,不同模型可能有自己的切分方法,對(duì)應(yīng)地,一個(gè)Token對(duì)應(yīng)地漢字?jǐn)?shù)也不一樣。一個(gè)Token對(duì)應(yīng)漢字,0.75到1.8個(gè)漢字不等。
百度文心一言也提供了token計(jì)算器來在線計(jì)算文心大模型的字符轉(zhuǎn)token數(shù)。
網(wǎng)址:https://console.bce.baidu.com/support/#/tokenizer
阿里通義千問也有:https://dashscope.console.aliyun.com/tokenizer
所以一個(gè)Token有多少個(gè)漢字,具體取決于分詞器的設(shè)計(jì)。
目前的各種tokenization技術(shù),涉及到將文本分割成有意義的單元,以捕捉其語義和句法結(jié)構(gòu),如字級(jí)、子字級(jí)(例如,使用字節(jié)對(duì)編碼或 WordPiece)或字符級(jí)。
根據(jù)特定語言和特定任務(wù)的需求,每種技術(shù)都有自己的優(yōu)勢(shì)和權(quán)衡。比如Qwen-7B采用UTF-8字節(jié)級(jí)別的BPE tokenization方式,并依賴OpenAI開源的tiktoken軟件包執(zhí)行分詞。
-
字節(jié)對(duì)編碼(BPE):為AI模型構(gòu)建子詞詞匯,用于合并出現(xiàn)頻繁的字符/子字對(duì)。 -
子詞級(jí)tokenization:為復(fù)雜語言和詞匯劃分單詞。將單詞拆分成更小的單元,這對(duì)于復(fù)雜的語言很重要。 -
單詞級(jí)tokenization:用于語言處理的基本文本tokenization。每個(gè)單詞都被用作一個(gè)不同的token,它很簡(jiǎn)單,但受到限制。 -
句子片段:用習(xí)得的子詞片段分割文本,基于所學(xué)子單詞片段的分段。 -
分詞tokenization:采用不同合并方法的子詞單元。 -
字節(jié)級(jí)tokenization:使用字節(jié)級(jí)token處理文本多樣性,將每個(gè)字節(jié)視為令牌,這對(duì)于多語言任務(wù)非常重要。 -
混合tokenization:平衡精細(xì)細(xì)節(jié)和可解釋性,結(jié)合詞級(jí)和子詞級(jí)tokenization。
關(guān)于tokenization,如果大家感興趣,下一篇我詳細(xì)講講。
最后再推薦一個(gè)網(wǎng)站,可以一目了然地查看大模型性能:https://llmbenchmark.liduos.com/?r=cdr
這個(gè)網(wǎng)站會(huì)實(shí)時(shí)展示不同大模型的:TTFT、TPS 和 Total,表頭支持排序和篩選。
llmbenchmark.liduos.com是@juberti的團(tuán)隊(duì)發(fā)布thefastest.ai的國(guó)內(nèi)版
大家如果對(duì)國(guó)外大模型API性能感興趣可以訪問:https://thefastest.ai
這個(gè)項(xiàng)目還是開源的:https://github.com/fixie-ai/thefastest.ai
最后推一下我的星球:只聊技術(shù)變現(xiàn),不復(fù)制粘貼資訊,不會(huì)搬運(yùn)他人觀點(diǎn)。我會(huì)在這里分享對(duì)新技術(shù)的思考,風(fēng)口賺錢項(xiàng)目,介紹變現(xiàn)套路,為大家答疑解惑。你可以把我當(dāng)作你的另一雙眼睛,幫你篩選,解讀最有價(jià)值的信息。現(xiàn)在加入附贈(zèng)1)AI資料大禮包;2)GPT、Claude 、Gemini、Llama、Qwen、DeepSeek、Minimax、Moonshot、Yi、GLM國(guó)內(nèi)網(wǎng)絡(luò)免費(fèi)使用;3)部分公眾號(hào)付費(fèi)專欄或付費(fèi)閱讀的文章免費(fèi)暢讀;4)AI繪畫、高效AI工具、高質(zhì)量資料分享;5)微信群&有問必答
我“參加了”阿里巴巴全球數(shù)學(xué)競(jìng)賽決賽,分享一下經(jīng)驗(yàn)
搭建機(jī)器學(xué)習(xí)開發(fā)環(huán)境及Python基礎(chǔ),108頁P(yáng)DF
116頁P(yáng)DF小冊(cè)子:機(jī)器學(xué)習(xí)中的概率論、統(tǒng)計(jì)學(xué)、線性代數(shù)
