波多野结衣中文字幕一区二区 ,色老太在线视频,免费看黄色日逼视频,操逼日韩,无码一区二区三区在线观看,日本高清三区,七区无码,天天插天天日天天干

主要是更方便簡捷的方式運行大模型，無需GPU資源。mac、linux和win的版本都有。我是基于win去玩，在官網(wǎng)下載exe安裝包。安裝好后，默認就給你啟起來，command也很簡約

直接run的時候，如果沒有本地模型，就去pull一個，比如pull一個llava

      
      ollama run llava

可是沒有界面，還是少點意思，不打緊，我們用open-webui。通過docker安裝open-webui

      
      docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

起容器后，直接打開網(wǎng)址 http://localhost:3000/默認下載的模型都是int4量化后的模型，比如qwen1.5-1.8B-int4才1G多，qwen1.5-7B-int4才4.2G，響應(yīng)速度很快。

支持任意對話節(jié)點切換模型：比如和1.8B聊著不爽了，就切換到7B去聊
支持多模態(tài)對話，比如llava，就是沒有g(shù)pu資源，推理相對慢點
構(gòu)建提示詞模板，當(dāng)然下面的提示有點粗糙 : )構(gòu)建好后，通過“/”符號來喚醒喚醒后會直接把提示詞模版插入文本框再在模板相應(yīng)位置插入關(guān)鍵信息進行生成
基于文檔問答：先是插入文檔和文檔解析，默認用文本分塊大小是1500，分塊之間的overlap是100字符解析好的文檔會顯示出來然后在對話框中通過符號‘#’來引用為了測試他具不具備這個能力，用qwen-14b做了驗證，下面是沒有加載文檔的回復(fù)下面是加載了文檔的回復(fù)
支持GGUF、PyTorch和Safetensors模型的導(dǎo)入：參考這里
通過ngrok反向代理服務(wù)，實現(xiàn)內(nèi)網(wǎng)穿透：在這里下載ngrok安裝exe文件，然后再在官網(wǎng)上注冊一下獲得auth的token，啟動的時候指定3000端口即可。

      
      ngrok http http://localhost:3000

然后復(fù)制 https://6123-223-73-66-233.ngrok-free.app 給小伙伴們體驗吧目前ollama也支持gemma和mistral。現(xiàn)在沒有網(wǎng)絡(luò)，沒有g(shù)pu顯卡，也能跑起llm推理生成，何樂而不為。

ollama:極簡本地化部署LLM