ollama:極簡本地化部署LLM
主要是更方便簡捷的方式運行大模型,無需GPU資源。mac、linux和win的版本都有。我是基于win去玩,在官網(wǎng)下載exe安裝包。安裝好后,默認就給你啟起來,command也很簡約
直接run的時候,如果沒有本地模型,就去pull一個,比如pull一個llava
ollama run llava
可是沒有界面,還是少點意思,不打緊,我們用open-webui。通過docker安裝open-webui
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
起容器后,直接打開網(wǎng)址 http://localhost:3000/
默認下載的模型都是int4量化后的模型,比如qwen1.5-1.8B-int4才1G多,qwen1.5-7B-int4才4.2G,響應(yīng)速度很快。
-
支持任意對話節(jié)點切換模型:比如和1.8B聊著不爽了,就切換到7B去聊
-
支持多模態(tài)對話,比如llava,就是沒有g(shù)pu資源,推理相對慢點


-
構(gòu)建提示詞模板,當(dāng)然下面的提示有點粗糙 : )
構(gòu)建好后,通過“/”符號來喚醒
喚醒后會直接把提示詞模版插入文本框
再在模板相應(yīng)位置插入關(guān)鍵信息進行生成
-
基于文檔問答:先是插入文檔和文檔解析,默認用文本分塊大小是1500,分塊之間的overlap是100字符
解析好的文檔會顯示出來
然后在對話框中通過符號‘#’來引用
為了測試他具不具備這個能力,用qwen-14b做了驗證,下面是沒有加載文檔的回復(fù)
下面是加載了文檔的回復(fù)

-
支持GGUF、PyTorch和Safetensors模型的導(dǎo)入:參考這里
-
通過ngrok反向代理服務(wù),實現(xiàn)內(nèi)網(wǎng)穿透:在這里下載ngrok安裝exe文件,然后再在官網(wǎng)上注冊一下獲得auth的token,啟動的時候指定3000端口即可。
ngrok http http://localhost:3000
然后復(fù)制 https://6123-223-73-66-233.ngrok-free.app 給小伙伴們體驗吧
目前ollama也支持gemma和mistral。現(xiàn)在沒有網(wǎng)絡(luò),沒有g(shù)pu顯卡,也能跑起llm推理生成,何樂而不為。
