InternGPT視覺交互系統(tǒng)
InternGPT(簡稱 iGPT) / InternChat(簡稱 iChat) 是一種基于指向語言驅(qū)動的視覺交互系統(tǒng),允許你使用指向設(shè)備通過點(diǎn)擊、拖動和繪制與 ChatGPT 進(jìn)行互動。
InternGPT 的名稱代表了 interaction(交互)、nonverbal(非語言)和 ChatGPT。與依賴純語言的現(xiàn)有交互系統(tǒng)不同,通過整合指向指令,iGPT 顯著提高了用戶與聊天機(jī)器人之間的溝通效率,以及聊天機(jī)器人在視覺為中心任務(wù)中的準(zhǔn)確性,特別是在復(fù)雜的視覺場景中。
此外,在 iGPT 中,采用輔助控制機(jī)制來提高 LLM 的控制能力,并對一個大型視覺-語言模型 Husky 進(jìn)行微調(diào),以實(shí)現(xiàn)高質(zhì)量的多模態(tài)對話(在ChatGPT-3.5-turbo評測中達(dá)到 93.89% GPT-4 質(zhì)量)。
主要功能使用:
在圖片上傳成功后,你可以發(fā)送如下消息與iGPT進(jìn)行多模態(tài)相關(guān)的對話:"what is it in the image?" or "what is the background color of image?".
你同樣也可以交互式地操作、編輯或者生成圖片,具體如下:
- 點(diǎn)擊圖片上的任意位置,然后按下
Pick按鈕,預(yù)覽分割區(qū)域。你也可以按下OCR按鈕,識別具體位置處存在的所有單詞; - 要在圖像中 刪除掩碼區(qū)域,你可以發(fā)送如下消息:
“remove the masked region”; - 要在圖像中 替換掩碼區(qū)域的物體為其他物體,你可以發(fā)送如下消息:
“replace the masked region with {your prompt}”; - 想 生成新圖像,你可以發(fā)送如下消息:
“generate a new image based on its segmentation describing {your prompt}”; - 想通過 涂鴉創(chuàng)建新圖像,你應(yīng)該按下
Whiteboard按鈕并在白板上繪制。繪制完成后,你需要按下保存按鈕并發(fā)送如下消息:“generate a new image based on this scribble describing {your prompt}”。
系統(tǒng)概覽:
主要功能
A) 移除遮蓋的對象
B) 交互式圖像編輯
C) 圖像生成
D) 交互式視覺問答
E) 交互式圖像生成
F) 視頻高光解說
安裝
基本要求
- Linux
- Python 3.8+
- PyTorch 1.12+
- CUDA 11.6+
- GCC & G++ 5.4+
- GPU Memory > 17G 用于加載基本工具 (HuskyVQA, SegmentAnything, ImageOCRRecognition)
安裝 Python 的依賴項
pip install -r requirements.txt
評論
圖片
表情
