<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ollama:極簡本地化部署LLM

          共 1236字,需瀏覽 3分鐘

           ·

          2024-04-11 10:55

              主要是更方便簡捷的方式運行大模型,無需GPU資源。mac、linux和win的版本都有。我是基于win去玩,在官網(wǎng)下載exe安裝包。安裝好后,默認就給你啟起來,command也很簡約

          683a163174f8dfaefe3af458052ecd2d.webp直接run的時候,如果沒有本地模型,就去pull一個,比如pull一個llava

                
                ollama run llava

          ddb9db22101059633a3735febdb4b2c6.webp可是沒有界面,還是少點意思,不打緊,我們用open-webui。通過docker安裝open-webui

                
                docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

          298d872829439c083d93278414e0c72d.webp起容器后,直接打開網(wǎng)址 http://localhost:3000/e93a8d4d5240ee6b920f2434f54b1bd8.webp默認下載的模型都是int4量化后的模型,比如qwen1.5-1.8B-int4才1G多,qwen1.5-7B-int4才4.2G,響應(yīng)速度很快。

          • 支持任意對話節(jié)點切換模型:比如和1.8B聊著不爽了,就切換到7B去聊

          • 支持多模態(tài)對話,比如llava,就是沒有g(shù)pu資源,推理相對慢點0598516aba3d1b6331f461457e0932f0.webp7cf7cbbcd3c0b5329be553d3299911cd.webp

          • 構(gòu)建提示詞模板,當(dāng)然下面的提示有點粗糙 : )0dcc28086eac709a0c1f0b7ce647fbdc.webp構(gòu)建好后,通過“/”符號來喚醒37698a49a701e01f37f8f112200cef46.webp喚醒后會直接把提示詞模版插入文本框d08c8e0d8b0654d3ccfc4ba6c12a5433.webp再在模板相應(yīng)位置插入關(guān)鍵信息進行生成57d88a97d2c37d1944282818f6c2c44d.webp

          • 基于文檔問答:先是插入文檔和文檔解析,默認用文本分塊大小是1500,分塊之間的overlap是100字符06944a636db3850f3d0a57c58ab4a111.webp解析好的文檔會顯示出來3d8b8d62965e4bca03f6a9811d1c3dff.webp然后在對話框中通過符號‘#’來引用a31ee2f27bd65b4ccd54b18aff820614.webp為了測試他具不具備這個能力,用qwen-14b做了驗證,下面是沒有加載文檔的回復(fù)7a0a5300a4a6b2c7561a5fc61f7e0c83.webp下面是加載了文檔的回復(fù)2516f309a54d759429d51c39d6cbd998.webpc887432e325142582a4cafbb33a832fc.webp

          • 支持GGUF、PyTorch和Safetensors模型的導(dǎo)入:參考這里

          • 通過ngrok反向代理服務(wù),實現(xiàn)內(nèi)網(wǎng)穿透:在這里下載ngrok安裝exe文件,然后再在官網(wǎng)上注冊一下獲得auth的token,啟動的時候指定3000端口即可。

                
                ngrok http http://localhost:3000

          b0949c6a1b96fd7f0ee999f7c0785354.webp然后復(fù)制 https://6123-223-73-66-233.ngrok-free.app 給小伙伴們體驗吧d76048694f6ab4fac3a2ed4b1ca2720a.webp目前ollama也支持gemma和mistral。現(xiàn)在沒有網(wǎng)絡(luò),沒有g(shù)pu顯卡,也能跑起llm推理生成,何樂而不為。


          瀏覽 38
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91久久国产综合久久91 | 97免费在线视频 | 亚洲一级免费电影 | sese99sese | 夜夜撸 |