<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ImageBind多模態(tài) AI 模型

          聯(lián)合創(chuàng)作 · 2023-09-25 23:29

          ImageBind 是支持綁定來自六種不同模態(tài)(圖像、文本、音頻、深度、溫度和 IMU 數(shù)據(jù))的信息的 AI 模型,它將這些信息統(tǒng)一到單一的嵌入式表示空間中,使得機(jī)器能夠更全面、直接地從多種信息中學(xué)習(xí),而無需明確的監(jiān)督(即組織和標(biāo)記原始數(shù)據(jù)的過程)。

          ImageBind 通過將文本、圖像/視頻和音頻、視覺、溫度還有運(yùn)動(dòng)數(shù)據(jù)流串聯(lián)在一起,形成一個(gè)單一的 embedding space,讓機(jī)器能從多維度來理解世界,也能創(chuàng)造沉浸式的多感官體驗(yàn)。

          ImageBind 通過將六種模式的嵌入對(duì)齊到一個(gè)共享的空間,實(shí)現(xiàn)了跨模式檢索,這就能搜索那些沒有同時(shí)出現(xiàn)的不同類型的內(nèi)容。把不同的模式嵌入疊加,可以自然地構(gòu)造它們的語義。例如 ImageBind 可以與 DALLE-2 解碼器和 CLIP 文本一起嵌入,生成音頻到圖像的映射,就像人類聽到聲音腦補(bǔ)畫面的那種感覺。

          示例代碼

          跨模態(tài)(例如圖像、文本和音頻)提取和比較特征。

          import data
          import torch
          from models import imagebind_model
          from models.imagebind_model import ModalityType
          
          text_list=["A dog.", "A car", "A bird"]
          image_paths=[".assets/dog_image.jpg", ".assets/car_image.jpg", ".assets/bird_image.jpg"]
          audio_paths=[".assets/dog_audio.wav", ".assets/car_audio.wav", ".assets/bird_audio.wav"]
          
          device = "cuda:0" if torch.cuda.is_available() else "cpu"
          
          # Instantiate model
          model = imagebind_model.imagebind_huge(pretrained=True)
          model.eval()
          model.to(device)
          
          # Load data
          inputs = {
              ModalityType.TEXT: data.load_and_transform_text(text_list, device),
              ModalityType.VISION: data.load_and_transform_vision_data(image_paths, device),
              ModalityType.AUDIO: data.load_and_transform_audio_data(audio_paths, device),
          }
          
          with torch.no_grad():
              embeddings = model(inputs)
          
          print(
              "Vision x Text: ",
              torch.softmax(embeddings[ModalityType.VISION] @ embeddings[ModalityType.TEXT].T, dim=-1),
          )
          print(
              "Audio x Text: ",
              torch.softmax(embeddings[ModalityType.AUDIO] @ embeddings[ModalityType.TEXT].T, dim=-1),
          )
          print(
              "Vision x Audio: ",
              torch.softmax(embeddings[ModalityType.VISION] @ embeddings[ModalityType.AUDIO].T, dim=-1),
          )
          
          # Expected output:
          #
          # Vision x Text:
          # tensor([[9.9761e-01, 2.3694e-03, 1.8612e-05],
          #         [3.3836e-05, 9.9994e-01, 2.4118e-05],
          #         [4.7997e-05, 1.3496e-02, 9.8646e-01]])
          #
          # Audio x Text:
          # tensor([[1., 0., 0.],
          #         [0., 1., 0.],
          #         [0., 0., 1.]])
          #
          # Vision x Audio:
          # tensor([[0.8070, 0.1088, 0.0842],
          #         [0.1036, 0.7884, 0.1079],
          #         [0.0018, 0.0022, 0.9960]])
          瀏覽 21
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  伊人狼在线 | 91视频在线免费观看 | 理论片无码 | 91黄片网站 | 中文字幕日产av 中文字幕在线资源 |