<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          7 Papers & Radios | CVPR 2022最佳/最佳學(xué)生論文;大型語言模型教會智能體進(jìn)化

          共 7850字,需瀏覽 16分鐘

           ·

          2022-07-16 20:37


          來源:機(jī)器之心
          本文約3700字,建議閱讀5分鐘
          本周重要論文包括:CVPR 2022各種獲獎?wù)撐摹?/span>

          目錄

          1. Learning to Solve Hard Minimal Problems
          2. Dual-Shutter Optical Vibration Sensing
          3. EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation
          4. Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields
          5. Self-supervised Transparent Liquid Segmentation for Robotic Pouring
          6. Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
          7. Evolution through Large Models
          8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

          論文 1:Learning to Solve Hard Minimal Problems

          • 作者:Petr Hruby等
          • 論文鏈接:https://arxiv.org/abs/2112.03424

          摘要:該研究提出了一種在 RANSAC 框架中解決困難的幾何優(yōu)化問題的方法。最小化問題源于將原始幾何優(yōu)化問題松弛化為具有許多虛假解決方案的最小問題。該研究提出的方法避免了計(jì)算大量虛假解決方案。

          研究者設(shè)計(jì)了一種學(xué)習(xí)策略,用于選擇初始問題 - 解決方案對以用數(shù)值方法繼續(xù)解決原問題。該研究通過創(chuàng)建一個(gè) RANSAC 求解器來演示所提方法,該求解器通過使用每個(gè)視圖中的 4 個(gè)點(diǎn)進(jìn)行最小松弛化來計(jì)算 3 個(gè)校準(zhǔn)相機(jī)的相對位姿。平均而言,該方法可以在 70 μs、內(nèi)解決一個(gè)原始問題。此外,該研究還針對校準(zhǔn)相機(jī)的相對位姿這一問題進(jìn)行了基準(zhǔn)測試和研究。

          內(nèi)部 RANSAC 循環(huán)為數(shù)據(jù)樣本 p 找到最佳解決方案。

           (a) 映射到問題空間 P 的問題解決流形 M;(b) 數(shù)值 HC 方法。

          分類器評估。

          推薦:CVPR 2022 最佳論文。


          論文 2:Dual-Shutter Optical Vibration Sensing


          • 作者:Mark Sheinin 等

          • 論文鏈接:https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf


          摘要:視覺振動測量是一種非常有用的工具,可用于遠(yuǎn)程捕捉音頻、材料物理屬性、人體心率等。雖然視覺上可觀察的振動可以通過高速相機(jī)直接捕捉,通過將激光束照射振動表面所產(chǎn)生的散斑圖案的位移成像,可以從光學(xué)上放大微小且不易察覺的物體振動。


          在本文中,研究者提出了一種在高速(高達(dá) 63 kHz)下同時(shí)檢測多個(gè)場景源振動的新方法,該方法使用額定工作頻率僅為 130Hz 的傳感器。他們的方法使用兩個(gè)分別配備滾動和全局快門傳感器的相機(jī)來同時(shí)捕捉場景,其中滾動快門相機(jī)捕捉到對高速物體振動進(jìn)行編碼的失真散斑圖像,全局快門相機(jī)捕捉散斑圖案的未失真參考圖像,從而有助于對源振動進(jìn)行解碼。最后,研究者通過捕捉音頻源(如揚(yáng)聲器、人聲和樂器)引起的振動并分析音叉的振動模式,展示了他們的方法。


          研究者用一種新穎的方法「看到」(seeing)聲音。

           (a) 成像散焦散斑;(b) 雙快門成像系統(tǒng)示意圖。

          雙快門相機(jī)定時(shí)。

          推薦:CVPR 2022 最佳論文提名。

          論文 3:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

          • 作者:Hansheng Chen 等
          • 論文鏈接:
          • https://arxiv.org/pdf/2203.13254.pdf

          摘要:利用透視點(diǎn)(PnP)基數(shù)從單個(gè) RGB 圖像中定位 3D 物體是計(jì)算機(jī)視覺領(lǐng)域一個(gè)長期存在的問題。在端到端深度學(xué)習(xí)的驅(qū)動下,近期的研究建議將 PnP 解釋為一個(gè)可微分層,如此 2D-3D 點(diǎn)對應(yīng)就可以部分地通過反向傳播梯度 w.r.t. 物體姿態(tài)來學(xué)習(xí)。然而,從零開始學(xué)習(xí)整套不受限的 2D-3D 點(diǎn)在現(xiàn)有的方法下很難收斂,因?yàn)榇_定性的姿態(tài)本質(zhì)上是不可微的。

          這篇論文提出了一種用于普遍端到端姿態(tài)估計(jì)的概率 PnP 層 ——EPro-PnP(end-to-end probabilistic PnP),它在 SE 流形上輸出姿態(tài)的分布,實(shí)質(zhì)地將分類 Softmax 帶入連續(xù)域。2D-3D 坐標(biāo)和相應(yīng)的權(quán)值作為中間變量,通過最小化預(yù)測姿態(tài)與目標(biāo)姿態(tài)分布之間的 KL 散度來學(xué)習(xí)。其基本原理統(tǒng)一了現(xiàn)有的方法,類似于注意力機(jī)制。EPro-PnP 的性能明顯優(yōu)于其他基準(zhǔn),縮小了基于 PnP 的方法與基于 LineMOD 6DoF 的姿態(tài)估計(jì)以及 nuScenes 3D 目標(biāo)檢測基準(zhǔn)的特定任務(wù)方法之間的差距。

          EPro-PnP 方法概覽。

          學(xué)習(xí)離散分類器 vs 學(xué)習(xí)連續(xù)姿態(tài)分布。

          算法 1:基于 AMIS 的蒙特卡洛姿態(tài)損失。

          推薦:CVPR 2022 最佳學(xué)生論文。

          論文 4:Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

          • 作者:Dor Verbin 等
          • 論文鏈接:
          • https://arxiv.org/pdf/2112.03907.pdf

          摘要:神經(jīng)輻射場是一種流行的視圖合成技術(shù),它將場景表示為連續(xù)的體積函數(shù),由多層感知器參數(shù)化,多層感知器提供每個(gè)位置的體積密度和與視圖相關(guān)的散發(fā)輻射。雖然基于 NeRF 的方法擅長表征平滑變化的外觀幾何結(jié)構(gòu),但它們通常無法準(zhǔn)確捕捉和再現(xiàn)光澤表面的外觀。

          該研究提出了 Ref-NeRF 來解決這個(gè)問題,它將 NeRF 與視圖相關(guān)的散發(fā)輻射的參數(shù)化替換為反射輻射的表征,并使用空間變化的場景屬性的集合來構(gòu)造該函數(shù)。該研究表明,使用法向量上的正則化器,新模型顯著提高了鏡面反射的真實(shí)性和準(zhǔn)確性。此外,該研究還表明該模型對散發(fā)輻射的內(nèi)部表征是可解釋的,這對于場景編輯非常有用。

          與以往表現(xiàn)最好的神經(jīng)視圖合成模型 mip-NeRF 相比,Ref-NeRF 顯著提升了法向量(最上行)和視覺真實(shí)性(余下行)。

          mip-NeRF(上)和 Ref-NeRF(下)的架構(gòu)圖比較。

          Ref-NeRF 渲染出準(zhǔn)確的光鮮表面,覆蓋精細(xì)幾何細(xì)節(jié)。

          推薦:CVPR 2022 最佳學(xué)生論文提名。

          論文 5:Self-supervised Transparent Liquid Segmentation for Robotic Pouring

          • 作者:Gautham Narasimhan 等
          • 論文鏈接:
            https://arxiv.org/pdf/2203.01538.pdf

          摘要:近期,在 CMU 和圣母大學(xué)的一篇論文中,研究者提出了一種在透明容器中感知透明液體(水)的方法。與以往方法相比,本研究提出的方法減輕了對操作域的限制。具體地,他們在單個(gè)圖像上進(jìn)行操作,不需要液體運(yùn)動或多幀,也不需要在訓(xùn)練期間進(jìn)行手動注釋或加熱液體。研究者使用一個(gè)生成模型來學(xué)習(xí)將有色液體的圖像轉(zhuǎn)換為透明液體的合成圖像,這種做法可以用來訓(xùn)練透明的液體細(xì)分模型。

          論文一作 Gautham Narasimhan 現(xiàn)為 CMU 機(jī)器人研究所的助理研究員,2020 年在 CMU 拿到了碩士學(xué)位。目前,他致力于研究用于機(jī)器人倒水任務(wù)的強(qiáng)化學(xué)習(xí)模型。該研究由 LG Electronics 和美國國家科學(xué)基金會提供資助,并于 5 月份發(fā)表在 IEEE 國際機(jī)器人和自動化會議上。該論文已被機(jī)器人領(lǐng)域國際頂會 ICRA 2022 接收。

          有色液體圖像轉(zhuǎn)換成透明液體圖像的詳細(xì)流程圖。

          透明液體細(xì)分流程圖。

          推薦:將有色液體圖像轉(zhuǎn)換成透明液體,CMU 教機(jī)器人準(zhǔn)確掌控向杯中倒多少水。

          論文 6:Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization

          • 作者:Ruipeng Jia 等
          • 論文鏈接:
            https://aclanthology.org/2022.acl-long.42.pdf

          摘要:抽取式文本摘要目前在英文上已經(jīng)取得了很好的性能,這主要得益于大規(guī)模預(yù)訓(xùn)練語言模型和豐富的標(biāo)注語料。但是對于其他小語種語言,目前很難得到大規(guī)模的標(biāo)注數(shù)據(jù)。中國科學(xué)院信息工程研究所和微軟亞洲研究院聯(lián)合提出一種是基于 Zero-Shot 的多語言抽取式文本摘要模型。具體方法是使用在英文上預(yù)訓(xùn)練好的抽取式文本摘要模型來在其他低資源語言上直接進(jìn)行摘要抽??;并針對多語言 Zero-Shot 中的單語言標(biāo)簽偏差問題,提出了多語言標(biāo)簽標(biāo)注算法和神經(jīng)標(biāo)簽搜索模型。

          實(shí)驗(yàn)結(jié)果表明,模型 NLSSum 在多語言摘要數(shù)據(jù)集 MLSUM 的所有語言上大幅度超越 Baseline 模型的分?jǐn)?shù)。其中在俄語(Ru)數(shù)據(jù)集上,零樣本模型性能已經(jīng)接近使用全量監(jiān)督數(shù)據(jù)得到的模型。該研究發(fā)表在了 ACL 2022 會議主會長文上。

          多語言 Zero-Shot 中的單語言標(biāo)簽偏差問題。

          多語言標(biāo)簽。

          多語言神經(jīng)標(biāo)簽搜索摘要模型。

          推薦:基于神經(jīng)標(biāo)簽搜索,中科院 & 微軟亞研零樣本多語言抽取式摘要入選 ACL 2022。

          論文 7:Evolution through Large Models

          • 作者:Joel Lehman 等
          • 論文鏈接:https://arxiv.org/abs/2206.08896

          摘要:很難想象,讓大型語言模型輔助一下智能體機(jī)器人,它就自己成精了...... 深度學(xué)習(xí)和進(jìn)化計(jì)算兩種方法都適用于計(jì)算,都可以產(chǎn)生有用的發(fā)現(xiàn)和有意義的進(jìn)展。不過,二者之間到底是相互競爭的模式,還是互補(bǔ)的模式?最近一篇論文中,來自 OpenAI 的研究者探討了第二種情況,即互補(bǔ)模式的可能性。他們研究了大語言模型 (LLM; [1,2]) 在基因編程 (GP; [3,4]) 和開放性 [5-7] 上的潛在意義,發(fā)現(xiàn)了二者間的協(xié)同作用。

          該研究選擇使用 MAP-Elite 算法進(jìn)行實(shí)驗(yàn)。

          來自 OpenAI API 的模型優(yōu)于論文中的 diff 模型。

          一個(gè)單獨(dú)的 Sodaracer 由一個(gè)大小可變的點(diǎn)質(zhì)量(point mass)集合 (每個(gè)點(diǎn)質(zhì)量都由其初始的 2D 位置描述) 和將質(zhì)量連接在一起的振蕩彈簧組成。

          推薦:大型語言模型教會智能體進(jìn)化,OpenAI 這項(xiàng)研究揭示了二者的互補(bǔ)關(guān)系。

          ArXiv Weekly Radiostation

          在ArXiv Weekly Radiostation中,在 7 Papers 的基礎(chǔ)上,精選本周更多重要論文,包括NLP、CV、ML領(lǐng)域各10篇精選,詳情如下:

          本周 10 篇 NLP 精選論文是:


          1. CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking.  (from Philip S. Yu)
          2. DP-Parse: Finding Word Boundaries from Raw Speech with an Instance Lexicon.  (from Abdelrahman Mohamed, Emmanuel Dupoux)
          3. GODEL: Large-Scale Pre-Training for Goal-Directed Dialog.  (from Jianfeng Gao)
          4. GEMv2: Multilingual NLG Benchmarking in a Single Line of Code.  (from Dragomir Radev)
          5. Offline RL for Natural Language Generation with Implicit Language Q Learning.  (from Sergey Levine)
          6. BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic Parsing.  (from Jason Eisner)
          7. The Problem of Semantic Shift in Longitudinal Monitoring of Social Media: A Case Study on Mental Health During the COVID-19 Pandemic.  (from Mark Dredze)
          8. Theory-Grounded Measurement of U.S. Social Stereotypes in English Language Models.  (from Hal Daumé III)
          9. Questions Are All You Need to Train a Dense Passage Retriever.  (from Joelle Pineau)
          10. Hierarchical Context Tagging for Utterance Rewriting.  (from Daniel Gildea)

          本周 10 篇 CV 精選論文是:


          1. MaskViT: Masked Visual Pre-Training for Video Prediction.  (from Li Fei-Fei)
          2. CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation.  (from Alan Yuille, Liang-Chieh Chen)
          3. PromptPose: Language Prompt Helps Animal Pose Estimation.  (from Dacheng Tao)
          4. Rectify ViT Shortcut Learning by Visual Saliency.  (from Dinggang Shen)
          5. Design of Supervision-Scalable Learning Systems: Methodology and Performance Benchmarking.  (from C.-C. Jay Kuo)
          6. Parallel Pre-trained Transformers (PPT) for Synthetic Data-based Instance Segmentation.  (from Ming Li, Jie Wu)
          7. Improving Generalization of Metric Learning via Listwise Self-distillation.  (from Zheng Wang)
          8. SATBench: Benchmarking the speed-accuracy tradeoff in object recognition by humans and dynamic neural networks.  (from Denis G. Pelli)
          9. The ArtBench Dataset: Benchmarking Generative Models with Artworks.  (from Kurt Keutzer)
          10. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation.  (from Vijay Vasudevan, Yonghui Wu)

          本周 10 篇 ML 精選論文是:


          1. AutoML Two-Sample Test.  (from Bernhard Sch?lkopf)
          2. Variational Causal Dynamics: Discovering Modular World Models from Interventions.  (from Bernhard Sch?lkopf)
          3. The Role of Depth, Width, and Activation Complexity in the Number of Linear Regions of Neural Networks.  (from Michael Unser)
          4. Channel-wise Mixed-precision Assignment for DNN Inference on Constrained Edge Nodes.  (from Luca Benini)
          5. LED: Latent Variable-based Estimation of Density.  (from Michael J. Black)
          6. $\texttt{FedBC}$: Calibrating Global and Local Models via Federated Learning Beyond Consensus.  (from Dinesh Manocha)
          7. How robust are pre-trained models to distribution shift?.  (from Philip H.S. Torr)
          8. FINGER: Fast Inference for Graph-based Approximate Nearest Neighbor Search.  (from Inderjit S. Dhillon)
          9. Optimally Weighted Ensembles of Regression Models: Exact Weight Optimization and Applications.  (from Thomas B?ck)
          10. Fighting Fire with Fire: Avoiding DNN Shortcuts through Priming.  (from Yang Gao)

          編輯:王菁
          校對:龔力




          瀏覽 78
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产成人电影 | 久久国产精品精品国产色婷婷 | 密芽网站黄 | 国产久久熟女拳交免费视频 | 国产精品久久久久久久久咪咪 |