【AI新趨勢期刊#2】AI發(fā)明計算機算法,如何給大模型排行,照片秒變...
前言
每天都要瀏覽大量AI相關(guān)新聞,是不是感到信息量爆炸,有效信息少?
這么多新產(chǎn)品和新工具,到底哪些是真正是有價值的,哪些只是浮躁的一時熱點?
想?yún)⑴cAI產(chǎn)品和工具的開發(fā),從哪里能夠獲得大量的靈感和思路?
我會把AI相關(guān)的新趨勢、新想法、新思路,和成熟AI產(chǎn)品、工具、模型等整理在這里,幫助大家去除信息噪音,更高效的了解AI前沿發(fā)展。
主要圍繞:
- AI業(yè)界趨勢、想法、思路
- AI產(chǎn)品
- AI開發(fā)者工具
- AI模型
作為本期刊的第二期,我們主要圍繞2023年5-6月發(fā)布的相關(guān)信息為主,觀眾朋友們請注意時效性。
想法/思路
大模型訓練的材料會耗盡嗎?
以下節(jié)選自阮一峰科技周刊中阮老師的個人思考,覺得蠻有意思。
現(xiàn)在的新聞報道,天天有 AI 的新聞,里面會提到很多模型。
分辨模型的強弱,有一個關(guān)鍵指標,就是看它有多少個參數(shù)。一般來說,參數(shù)的數(shù)量越多,模型就越強。
GPT-2 有15億個參數(shù),GPT-3 和 ChatGPT 有1750億個,GPT-4 沒有公布這個指標,據(jù)傳比上一代大5倍以上。

那么,什么是參數(shù)呢?按照我粗淺的理解,參數(shù)相當于模型預測時,所依據(jù)的神經(jīng)網(wǎng)絡(luò)的節(jié)點數(shù)量。參數(shù)越多,就代表了模型所考慮的各種可能性越多,計算量越大,效果越好。
既然參數(shù)越多越好,那么參數(shù)會無限增長嗎?
答案是不會的,因為參數(shù)受到訓練材料的制約。必需有足夠的訓練材料,才能計算出這些參數(shù),如果參數(shù)無限增長,訓練材料勢必也要無限增長。
我看到的一種說法是,訓練材料至少應(yīng)該是參數(shù)的10倍。舉例來說,一個區(qū)分貓照片和狗照片的模型,假定有1,000個參數(shù),那么至少應(yīng)該用10,000張圖片來訓練。
ChatGPT 有1750億個參數(shù),那么訓練材料最好不少于17500億個詞元(token)。"詞元"就是各種單詞和符號,以小說《紅樓夢》為例,它有788,451字,就算100萬個詞元。那么, ChatGPT 的訓練材料相當于175萬本《紅樓夢》。
根據(jù)報道,ChatGPT 實際上用了 570 GB 的訓練材料,來自維基百科、互聯(lián)網(wǎng)圖書館、Reddit 論壇、推特等等。
大家想一想,更強大的模型需要更多的訓練材料,問題是能找到這么多材料嗎,會不會材料有一天不夠用?
我告訴大家,真的有學者寫過論文,研究這個問題。
過去10年來,AI 訓練數(shù)據(jù)集的增長速度遠快于全世界的數(shù)據(jù)存量的增長速度。如果這種趨勢繼續(xù)下去,耗盡數(shù)據(jù)存量是不可避免的。
論文給出了三個時間點。
- 2026年:用完一般的語言數(shù)據(jù)
- 2030年~2050年:用完所有的語言數(shù)據(jù)
- 2030年~2060年:用完所有的視覺數(shù)據(jù)
也就是說,根據(jù)他們的預測,大概三四年后,新的訓練材料就會很難找。最遲三十年后,全世界所有材料都不夠 AI 的訓練。

上圖是作者給的趨勢圖,虛線是訓練材料的增長速度,紅線和藍線是模型增長速度的不同預測。到了2035年以后,這三根線就合在一起了,曲線變得越來越平。作者認為,到了那時,由于沒有足夠的訓練材料,AI 模型的發(fā)展速度可能就會顯著放緩。如果他的預測是正確的,就意味著,跟大家想的不一樣,AI 飛速發(fā)展不會持續(xù)很久。現(xiàn)在也許就是發(fā)展最快的階段,然后就會開始放慢,等到本世紀中葉就會顯著放慢,接近停滯,跟量子物理學的現(xiàn)狀差不多。
下面的新聞也討論了該問題,在這里節(jié)選片段。
https://m.thepaper.cn/newsDetail_forward_23467960
什么是模型崩潰?
本質(zhì)上,當 AI 大模型生成的數(shù)據(jù)最終污染了后續(xù)模型的訓練集時,就會發(fā)生“模型崩潰”。

論文中寫道,“模型崩潰指的是一個退化的學習過程,在這個過程中,隨著時間的推移,模型開始遺忘不可能發(fā)生的事件,因為模型被它自己對現(xiàn)實的投射所毒化?!?/p>
一個假設(shè)的場景更有助于理解這一問題。機器學習(ML)模型在包含 100 只貓的圖片的數(shù)據(jù)集上進行訓練——其中 10 只貓的毛色為藍色,90 只貓的毛色為黃色。該模型了解到黃貓更普遍,但也表示藍貓比實際情況偏黃一點,當被要求生成新數(shù)據(jù)時,會返回一些代表“綠毛色的貓”的結(jié)果。隨著時間的推移,藍色毛色的初始特征會在連續(xù)的訓練周期中逐漸消失,從逐漸變成綠色,最后變成黃色。這種漸進的扭曲和少數(shù)數(shù)據(jù)特征的最終丟失,就是“模型崩潰”。
筆者認為,雖然訓練材料耗盡離我們現(xiàn)在還很遙遠,不過如果訓練所需要的材料一直以指數(shù)級增長,而我們現(xiàn)有的材料又沒有跟上時,確實有可能會提前碰到這種瓶頸。
OpenAI支持函數(shù)調(diào)用功能
關(guān)于OpenAI的函數(shù)調(diào)用功能,一個比喻:以前讓OpenAI回答數(shù)學題,只能靠催眠(你是數(shù)學專家),然后回答,常常答錯;現(xiàn)在讓OpenAI回答數(shù)學題,同時給他一個計算器(他知道什么時候該用計算器,但是他自己不會用),當他識別出這是數(shù)學題時,會把數(shù)字吐給你,你自己再用計算器算結(jié)果,再把結(jié)果和問題扔給他做回答。這也是很多其他新模型會附帶的功能,類似模型插件。
優(yōu)點:準確又智能。結(jié)果是你自己的函數(shù)計算的,肯定錯不了;

快速整理播客筆記
阿里的通義聽悟可以快速整理音頻的內(nèi)容,轉(zhuǎn)化為文字。
我們首先需要下載播客音頻,將音頻導入通義聽悟平臺,1 個小時的音頻大概只需要 5 分鐘導入和處理;
通義聽悟處理后,自動生成章節(jié)和聲音轉(zhuǎn)錄的文本(能夠區(qū)分不同說話人),支持文本翻譯成中文;
隨后可以根據(jù)自動生成的章節(jié)或關(guān)鍵詞快速跳轉(zhuǎn)收聽感興趣的內(nèi)容,不感興趣的一律跳過;隨時在右側(cè)做筆記;
AI發(fā)明計算機算法
https://www.ithome.com/0/698/425.htm
谷歌人工智能部門 DeepMind 宣布,使用 AI 發(fā)現(xiàn)了一種新的算法 AlphaDev,把排序速度提高了 70%,細節(jié)可以看原文。

模型
如何給大模型排行?
隨著大模型研究的流行,非常多模型在市面上大亂斗,也有非常多的模型排行榜。我們該如何科學的對模型進行排名呢?
在模型硬指標上,有以下幾個方面需要對比:
- 模型大小
- 訓練數(shù)據(jù)集
- 訓練和推理效率
- 應(yīng)用領(lǐng)域(單模態(tài)/多模態(tài)等)
- ...
除開硬指標,我在網(wǎng)上了解了一下,目前針對LLM公認的權(quán)威排行機構(gòu)和論文還比較少,比較知名的有LMSYS
https://chat.lmsys.org/
Large Model Systems Organization(LMSYS ORG)是由UC Berkeley與UCSD和CMU合作的學生和教職員工創(chuàng)立的開放研究組織。我們的目標是通過共同開發(fā)開放數(shù)據(jù)集,模型,系統(tǒng)和評估工具來使每個人都可以訪問大型模型。我們的工作包括機器學習和系統(tǒng)中的研究。我們培訓大型語言模型并使其廣泛使用,同時還開發(fā)了分布式系統(tǒng)以加速其培訓和推理。

國內(nèi)有一個CLUE排行榜,不過我看了下,感覺有點模仿國外的模型評測GLUE和SuperGLUE的感覺,大家可以參考,但是具體認可度有待觀察。
https://github.com/CLUEbenchmark/SuperCLUELYB

文字轉(zhuǎn)音頻 Bark
https://github.com/suno-ai/bark
Bark 是由 Suno 創(chuàng)建的基于轉(zhuǎn)換器的文本到音頻模型。Bark 可以生成高度逼真的多語言語音以及其他音頻 - 包括音樂、背景噪音和簡單的音效。該模型還可以產(chǎn)生非語言交流,如大笑、嘆息和哭泣。截至6月20號Github已經(jīng)20k Star。
簡單來說,你可以寫一段文本,并選擇一種語調(diào),給機器朗讀。但與此同時,支持:
- 除了英語外,還支持他國語言
- 支持一些非文字的聲音,比如清嗓子、大笑、哼哼等
- 通過加上音樂符號?,讓他用唱歌的形式朗讀。
- 可以給他輸入音頻,他會輸出模仿聲調(diào)
- ....(還有很多能力)
支持的語言:
| Language | Status |
|---|---|
| English (en) | ? |
| German (de) | ? |
| Spanish (es) | ? |
| French (fr) | ? |
| Hindi (hi) | ? |
| Italian (it) | ? |
| Japanese (ja) | ? |
| Korean (ko) | ? |
| Polish (pl) | ? |
| Portuguese (pt) | ? |
| Russian (ru) | ? |
| Turkish (tr) | ? |
| Chinese, simplified (zh) | ? |
我個人在HuggingFace試用了一下,真的很牛,不過一開始隨便試用時候稍有不慎會出現(xiàn)很奇怪的合成音,聽起來蠻恐怖。就和使用Stable Diffusion時畫出了非人類的頭一樣...
生物醫(yī)學領(lǐng)域大模型
LLaVA-Med:面向生物醫(yī)學領(lǐng)域的大語言模型和視覺模型
微軟發(fā)布了LLaVA-Med,要做醫(yī)藥領(lǐng)域的GPT-4,支持多模態(tài)??梢宰R別X光片的信息。
Github:https://github.com/microsoft/LLaVA-Med

北京智源研究院LLM Aquila-7B
Aquila-7B:北京智源研究院開放的國產(chǎn)可商用的LLM
支持中英雙語知識、支持商用許可協(xié)議、符合國內(nèi)數(shù)據(jù)合規(guī)要求。后續(xù)還會發(fā)布33B模型。
Github:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
智源研究院和智譜AI同源,后者目前掌握了GLM系列。目前看后續(xù)前者更主要做學術(shù)研究,后者主要做商業(yè)化。
Aquila語言大模型在技術(shù)上繼承了GPT-3、LLaMA等的架構(gòu)設(shè)計優(yōu)點,Aquila語言大模型是在中英文高質(zhì)量語料基礎(chǔ)上從0開始訓練的,通過數(shù)據(jù)質(zhì)量的控制、多種訓練的優(yōu)化方法,實現(xiàn)在更小的數(shù)據(jù)集、更短的訓練時間,獲得比其它開源模型更優(yōu)的性能。也是首個支持中英雙語知識、支持商用許可協(xié)議、符合國內(nèi)數(shù)據(jù)合規(guī)需要的大規(guī)模開源語言模型。
Aquila-7B和Aquila-33B開源模型使用 智源Aquila系列模型許可協(xié)議, 原始代碼基于Apache Licence 2.0。
王小川 百川LLM
王小川組建的「百川智能」正式推出首個70億參數(shù)中英文LLM——baichuan-7B。國產(chǎn)、開源、免費、可商用。
Github:https://github.com/baichuan-inc/baichuan-7B
產(chǎn)品
金融GPT:FinGPT
https://github.com/AI4Finance-Foundation/FinGPT
作者使用中國金融市場數(shù)據(jù)和美國金融市場數(shù)據(jù),分別用ChatGLM和LLaMA模型,配合Lora訓練,做出了FinGPT
能夠?qū)崿F(xiàn)如下應(yīng)用:
- 智能投顧
- ChatGPT可以像專業(yè)人士一樣進行投資建議。
- 在這個例子中,蘋果的股價上漲與ChatGPT分析新聞的預測相符。
- 量化交易
- 我們還可以使用新聞、社交媒體推文或者公司公告來構(gòu)建情感因子,右側(cè)的部分是由Twitter推文和ChatGPT信號產(chǎn)生的交易結(jié)果,數(shù)據(jù)來自于一個稱為stocknet-dataset的數(shù)據(jù)集。
- 正如您從圖片中所看到的,由ChatGPT生成的交易信號非常出色,我們甚至可以僅通過根據(jù)Twitter情感因子交易而獲得良好的結(jié)果。
- 因此,我們可以通過結(jié)合價格因素來獲得更好的結(jié)果。
- 低代碼開發(fā)
- 我們可以使用LLMs的幫助來編寫代碼。
- 右側(cè)顯示了我們?nèi)绾?strong style="color:#000000;">快速高效地開發(fā)我們的因子和其他代碼。
微軟HuggingGPT
https://huggingface.co/spaces/microsoft/HuggingGPT
解決不同領(lǐng)域和模態(tài)的AI任務(wù)是邁向人工智能的關(guān)鍵一步。雖然現(xiàn)在有大量的AI模型可以用于解決不同的領(lǐng)域和模態(tài)的問題,但是它們不能解決復雜的AI問題。由于大模型(LLM)在語言理解、生成、交互和推理上展現(xiàn)出很強的能力,所以作者認為LLM可以充當一個控制器的作用來管理現(xiàn)有的AI模型以解決復雜的AI任務(wù),并且語言可以成為一個通用的接口來啟動AI處理這些任務(wù)?;谶@個想法,作者提出HuggingGPT,一個框架用于連接不同的AI模型來解決AI任務(wù)。
具體的步驟是:
- 任務(wù)規(guī)劃:使用ChatGPT來獲取用戶請求
- 模型選擇:根據(jù)Hugging Face中的函數(shù)描述選擇模型,并用選中的模型執(zhí)行AI任務(wù)
- 任務(wù)執(zhí)行:使用第2步選擇的模型執(zhí)行的任務(wù),總結(jié)成回答返回給ChatGPT
- 回答生成:使用ChatGPT融合所有模型的推理,生成回答返回給用戶
通過ChatGPT的強語言能力和Hugging Face豐富的模型庫,HuggingGPT可以解決大部分復雜的AI任務(wù),為走向真正的人工智能奠定基石。

AI知識庫
https://albus.org/
我自己試了試,有一個很好的思路。當大家寫文章,或者做視頻沒靈感時,可以現(xiàn)在心里想一個主題,讓AIbus開始發(fā)散思維,進行簡單的頭腦風暴。
你可以給他設(shè)定文字基調(diào):

可以設(shè)定文案的閱讀受眾,生成對應(yīng)理解力的語句:

假設(shè)我要寫一篇關(guān)于Java String字符串的介紹的博客,我以Java String為關(guān)鍵詞,下圖是他為我一步步生成的文案,并且配圖也是生成的。

我現(xiàn)在越來越覺得寫技術(shù)博客越來越是個偽命題,尤其是基礎(chǔ)知識相關(guān)的博客,就算寫出來了也是給AI大模型輸送營養(yǎng)。
AI視頻換風格
給它一個原始視頻,然后選擇一種想要的風格,AI幫你自動生成新的風格視頻。
我自己也用官方Demo視頻試了試,它可以支持在生成后視頻的基礎(chǔ)上再次微調(diào)參數(shù),修改提示詞,進行迭代。我生成的效果不是特別理想,應(yīng)該還需要調(diào)整。



工具
Vercel 推出AI SDK
Vercel 是知名的云開發(fā)服務(wù)商,這次它內(nèi)置了與OpenAI、LangChain和Hugging Face Inference的協(xié)作模塊,目的是讓開發(fā)者專注于產(chǎn)品研發(fā),而不是基礎(chǔ)設(shè)施搭建。一個預想不一定對:以后做web AI產(chǎn)品,用Vercel和OpenAI就夠了。
https://vercel.com/blog/introducing-the-vercel-ai-sdk
通過SD將二維碼變成圖像
這個網(wǎng)站教你如何使用 Stable Diffusion,將二維碼變成一幅圖像。
我覺得這個很有意義,很多地方商家張貼各種二維碼真的很丑,如果能夠植入商家的宣傳圖片,比如美食,產(chǎn)品,人像,是真的有用,可以商業(yè)化。
https://stable-diffusion-art.com/qr-code/

參考
Meta360創(chuàng)新學院-AGI前夜
https://docs.meta360.vip
Github Trending
https://github.com/trending
往期精彩文章:
誰能真正替代你?AI編碼工具深度對比 (chatGPT/Copilot/Cursor/New Bing)
記一次線上RPC超時故障排查及后續(xù)GC調(diào)優(yōu)思路
