久久精品AV无码夜色,欧美mv日韩mv国产mv网址,极品另类,国产一级a毛一级a看免费视频黑人,伊人大香蕉伊人,亚洲AV无码国产精品牛牛影视,操逼操逼操逼操逼操逼操逼视频 ,日韩免费

轉(zhuǎn)自：新智元

1、Zero-Shot Text-to-Image Generation

https://arxiv.org/pdf/2102.12092.pdf

文本到圖像的生成傳統(tǒng)上側(cè)重于為固定數(shù)據(jù)集的訓(xùn)練尋找更好的建模假設(shè)。本文描述了一種基于Transformer的簡單方法來完成此任務(wù)，將文本和圖像標(biāo)記自回歸建模為單個(gè)數(shù)據(jù)流。憑借足夠的數(shù)據(jù)和規(guī)模，當(dāng)以零樣本方式進(jìn)行評(píng)估時(shí)，我們的方法與以前的特定領(lǐng)域模型相比具有競爭力。

2、VOGUE: Try-On by StyleGAN Interpolation Optimization

https://vogue-try-on.github.io/static_files/resources/VOGUE-virtual-try-on.pdf

給定目標(biāo)人物的圖像和穿著服裝的另一個(gè)人的圖像，我們會(huì)自動(dòng)生成給定服裝中的目標(biāo)人物。我們方法的核心是姿勢條件 StyleGAN2 潛在空間插值，它無縫地結(jié)合了每個(gè)圖像的興趣區(qū)域，即體型、頭發(fā)和膚色來自目標(biāo)人物，而帶有褶皺的服裝、材料屬性和形狀來自服裝圖像。

3、Taming Transformers for High-Resolution Image Synthesis

https://compvis.github.io/taming-transformers/

本文將 GAN 和卷積方法的效率與Transformer的表達(dá)能力相結(jié)合，為語義引導(dǎo)的高質(zhì)量圖像合成提供了一種強(qiáng)大且省時(shí)的方法。

4、Thinking Fast And Slow in AI

https://arxiv.org/abs/2010.06002

本文從人類能力中汲取靈感，提出了走向更通用和更值得信賴的人工智能（AGI）和人工智能研究社區(qū)的 10 個(gè)問題。

5、Automatic detection and quantification of floating marine macro-litter in aerial images

https://doi.org/10.1016/j.envpol.2021.116490

來自巴塞羅那大學(xué)的研究人員開發(fā)了一種基于深度學(xué)習(xí)的算法，能夠從航拍圖像中檢測和量化漂浮的垃圾。他們還制作了一個(gè)面向網(wǎng)絡(luò)的應(yīng)用程序，允許用戶在海面圖像中識(shí)別這些垃圾。

6、ShaRF: Shape-conditioned Radiance Fields from a Single View

https://arxiv.org/abs/2102.08860

試想一下，如果只拍攝對象的照片并將其以 3D 格式插入到您正在創(chuàng)建的電影或視頻游戲中，或者插入到 3D 場景中進(jìn)行插圖，那該有多酷。

7、Generative Adversarial Transformers

https://arxiv.org/pdf/2103.01209.pdf

本文利用了強(qiáng)大的 StyleGAN2 架構(gòu)中Transformer的注意力機(jī)制，使其更加強(qiáng)大！

8、We Asked Artificial Intelligence to Create Dating Profiles. Would You Swipe Right?

https://studyonline.unsw.edu.au/blog/ai-generated-dating-profile

你會(huì)在 AI 的個(gè)人資料頁面上仔細(xì)查看嗎？你能區(qū)分真人與機(jī)器嗎？這項(xiàng)研究揭示了在約會(huì)應(yīng)用程序上使用AI，會(huì)發(fā)生什么事情。

9、Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

https://arxiv.org/abs/2103.14030v1

Transformers 會(huì)取代計(jì)算機(jī)視覺中的 CNN 嗎？在不到 5 分鐘的時(shí)間內(nèi)，你就可以通過這篇關(guān)于 Swin Transformer 的新論文，了解如何將 Transformer 架構(gòu)應(yīng)用于計(jì)算機(jī)視覺任務(wù)。

10、IMAGE GANS MEET DIFFERENTIABLE RENDERING FOR INVERSE GRAPHICS AND INTERPRETABLE 3D NEURAL RENDERING

https://arxiv.org/pdf/2010.09125.pdf

本文提出了名為 GANverse3D 的模型，只需要一張圖像，就可以創(chuàng)建可以自定義和動(dòng)畫的 3D 圖像。

11、Deep nets: What have they ever done for vision?

https://arxiv.org/abs/1805.04025

本文將公開分享有關(guān)用于視覺應(yīng)用的深度網(wǎng)絡(luò)、它的成功之處，以及我們必須解決的局限性等一切內(nèi)容。

12、Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image

https://arxiv.org/pdf/2012.09855.pdf

視圖合成的下一步，就是永久視圖生成，目標(biāo)是創(chuàng)造出一張能夠飛入其中的圖片，還能在圖像內(nèi)的美景進(jìn)行探索！

13、Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control

https://arxiv.org/abs/2103.13452

本文提出了一種由人工智能驅(qū)動(dòng)的神經(jīng)接口，截肢患者可以以栩栩如生的靈巧和直覺來控制神經(jīng)假肢。

14、Total Relighting: Learning to Relight Portraits for Background Replacement

https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf

你有沒有想過改變圖片的背景，但讓它看起來很逼真？這并不簡單。你不能只是在家里拍一張自己的照片，然后換成海灘背景。圖片看起來會(huì)很假，任何人都會(huì)馬上看出「這是PS的」。本文提出的方法可能會(huì)完美解決這個(gè)問題。

15、LASR: Learning Articulated Shape Reconstruction from a Monocular Video

https://openaccess.thecvf.com/content/CVPR2021/papers/Yang_LASR_Learning_Articulated_Shape_Reconstruction_From_a_Monocular_Video_CVPR_2021_paper.pdf

本文提出一種方法，可以僅以短視頻作為輸入，生成人類或動(dòng)物移動(dòng)的 3D 模型。事實(shí)上，模型實(shí)際上明白，生成的目標(biāo)是一個(gè)奇怪的形狀，可以移動(dòng)，但仍然需要和原視頻保持附著，因?yàn)檫@仍然是「一個(gè)目標(biāo)」，而不僅僅是多目標(biāo)的集合。

16、Enhancing Photorealism Enhancement

http://vladlen.info/papers/EPE.pdf

本文中，英特爾的研究人員提出一個(gè) AI模型，可實(shí)時(shí)應(yīng)用于視頻游戲，并讓每一幀圖像看起來更自然。

如果你認(rèn)為這「只是另一個(gè) GAN」，將視頻游戲的圖片作為輸入，并按照自然世界的風(fēng)格對其進(jìn)行修改，其實(shí)并非如此。你可以在游戲圖形上花費(fèi)更少的精力，使其穩(wěn)定和完整，然后使用此模型改進(jìn)圖形風(fēng)格。

17、DefakeHop: A Light-Weight High-Performance Deepfake Detector

https://arxiv.org/abs/2103.06929

如何在 2021 年準(zhǔn)確識(shí)別Deepfake假視頻？這篇新論文可能會(huì)提供答案?？赡苁恰冈俅问褂萌斯ぶ悄堋?。以后，「眼見為實(shí)」可能很快就會(huì)變成「AI說真才是真」。

18、High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network

https://arxiv.org/pdf/2105.09188.pdf

本文提出一種基于機(jī)器學(xué)習(xí)的新方法，實(shí)時(shí)將任何樣式的圖像翻譯成指定風(fēng)格的 4K 圖像！

19、Barbershop: GAN-based Image Compositing using Segmentation Masks

https://arxiv.org/pdf/2106.01505.pdf

這篇文章本身并不是一項(xiàng)新技術(shù)，而是關(guān)于 GAN 的一個(gè)令人興奮的新應(yīng)用。這個(gè) AI 可以改變你的發(fā)型，看看改變前后的對比吧。

20、TextStyleBrush: Transfer of text aesthetics from a single example

https://arxiv.org/abs/2106.08385

2021年，在異國旅行的你走進(jìn)一家餐館，面對看不懂的菜單，你甚至不需要打開谷歌翻譯，只要簡單地使用 Facebook AI 的這篇文章中的新模型，就可以翻譯菜單圖像中的每個(gè)文字。

21、Animating Pictures with Eulerian Motion Fields

https://arxiv.org/abs/2011.15128

本文中的AI模型拍攝一張照片，了解哪些粒子應(yīng)該在移動(dòng)，并將圖片轉(zhuǎn)換為無限循環(huán)的動(dòng)畫，同時(shí)完全保留圖片的其余部分，創(chuàng)建出逼真的視頻。

22、CVPR 2021最佳論文獎(jiǎng): GIRAFFE - Controllable Image Generation

http://www.cvlibs.net/publications/Niemeyer2021CVPR.pdf

本文使用修改后的 GAN 架構(gòu)，可以在不影響背景或其他目標(biāo)的情況下移動(dòng)圖像中的目標(biāo)。

23、GitHub Copilot & Codex: Evaluating Large Language Models Trained on Code

https://arxiv.org/pdf/2107.03374.pdf

OpenAI 的這個(gè)新模型，可以從單詞生成代碼。

24、Apple: Recognizing People in Photos Through Private On-Device Machine Learning

https://machinelearning.apple.com/research/recognizing-people-photos

蘋果使用在您的設(shè)備上多種基于機(jī)器學(xué)習(xí)的算法，讓用戶在 iOS 15 上實(shí)現(xiàn)準(zhǔn)確規(guī)劃和組織自己的圖像和視頻。

25、Image Synthesis and Editing with Stochastic Differential Equations

https://arxiv.org/pdf/2108.01073.pdf

是時(shí)候告別復(fù)雜的 GAN 和用于圖像生成的Transformer架構(gòu)了！來自斯坦福大學(xué)和卡內(nèi)基梅隆大學(xué)的研究人員可以從任何基于用戶的輸入中生成新圖像。即使是毫無藝術(shù)基礎(chǔ)的人，現(xiàn)在也可以從草圖中生成漂亮的圖像。

26、Sketch Your Own GAN

https://arxiv.org/abs/2108.02774

通過按照草圖生成圖像，讓每個(gè)人都可以更輕松地進(jìn)行 GAN 訓(xùn)練！事實(shí)上，借助這種新方法，您可以根據(jù)最簡單的知識(shí)類型來控制 GAN 的輸出：手繪草圖。

27、Tesla's Autopilot Explained

https://www.louisbouchard.ai/tesla-autopilot-explained-tesla-ai-day/

本文中，特斯拉人工智能總監(jiān)安德烈·卡帕西等人展示了特斯拉的自動(dòng)駕駛系統(tǒng)是如何通過他們的八個(gè)攝像頭采集圖像，實(shí)現(xiàn)道路上導(dǎo)航。

28、Styleclip: Text-driven manipulation of StyleGAN imagery

https://arxiv.org/abs/2103.17249

AI 可以生成圖像，通過反復(fù)試驗(yàn)，研究人員可以按照特定的樣式控制生成結(jié)果?，F(xiàn)在，有了這個(gè)新模型，只使用文本就能做到這一點(diǎn)！

29、Time Lens: Event-based Video Frame Interpolation

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

TimeLens 模型可以理解視頻幀之間的粒子運(yùn)動(dòng)，以人眼無法捕捉的速度重建視頻。事實(shí)上，本文中的模型效果達(dá)到了目前智能手機(jī)都無法達(dá)到的效果。

30、Diverse Generation from a Single Video Made Possible

https://arxiv.org/abs/2109.08591

你有沒有想過編輯視頻？比如刪除或添加某人、更改背景、更改分辨率以適應(yīng)特定的縱橫比，無需對原視頻進(jìn)行壓縮或拉伸它。本文中的這項(xiàng)新研究?？梢詭椭阍趩蝹€(gè)視頻中以高清格式完成所有這些工作。

31、Skillful Precipitation Nowcasting using Deep Generative Models of Radar

https://www.nature.com/articles/s41586-021-03854-z

DeepMind 剛剛發(fā)布了一個(gè)生成模型，能夠在 89% 的情況下優(yōu)于廣泛使用的臨近預(yù)報(bào)方法，其準(zhǔn)確性和實(shí)用性通過了 50 多位氣象學(xué)家的評(píng)估！這個(gè)模型專注于預(yù)測未來 2 小時(shí)內(nèi)的降水，實(shí)現(xiàn)效果出奇地好。

32、The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks

https://arxiv.org/pdf/2110.09958.pdf

你是否曾在收看視頻或電視節(jié)目時(shí)完全聽不見演員的聲音，或者音樂太大聲？嗯，這個(gè)問題可能永遠(yuǎn)不會(huì)再發(fā)生了。三菱和印第安納大學(xué)剛剛發(fā)布了一個(gè)新模型和一個(gè)新數(shù)據(jù)集，用于識(shí)別并處理關(guān)于視頻配樂聲音的問題。

33、ADOP: Approximate Differentiable One-Pixel Point Rendering

https://arxiv.org/pdf/2110.06635.pdf

想象一下，從拍攝的一堆照片中生成一個(gè) 3D 模型或一段簡單流暢的視頻?，F(xiàn)在，這個(gè)目標(biāo)可以實(shí)現(xiàn)了。

34、(Style)CLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis

https://arxiv.org/abs/2111.03133

只需要拍一張你要復(fù)制樣式的圖片，再輸入你要生成的文字，本文中的算法就會(huì)自動(dòng)生成一張新的圖片。

35、SwinIR: Image restoration using swin transformer

https://arxiv.org/abs/2108.10257

您是否曾經(jīng)拍下過非常喜歡的圖像，但現(xiàn)在只有一張小圖了？如果能把它的清晰度提高四到八倍該有多好。本文中的方法可以將圖像的分辨率提高4倍，使其看起來更加平滑。而且可以在幾秒鐘內(nèi)自動(dòng)完成，幾乎適用于任何圖像。

36、EditGAN: High-Precision Semantic Image Editing

https://arxiv.org/abs/2111.03186

本文中的圖像編輯工具可以從草稿中控制任何特征，只會(huì)編輯你想要的內(nèi)容，保持圖像的其余部分不變。這是一款NVIDIA、MIT 和 UofT 提出的基于 GAN 的草圖模型的 SOTA 圖像編輯工具。

37、CityNeRF: Building NeRF at City Scale

https://arxiv.org/pdf/2112.05504.pdf

本文中的模型稱為 CityNeRF，是從 NeRF 發(fā)展而來的。NeRF 是最早使用輻射場和機(jī)器學(xué)習(xí)從圖像構(gòu)建 3D 模型的模型之一。但效率不高，而且只適用于單一規(guī)模。本文中，CityNeRF可同時(shí)應(yīng)用于衛(wèi)星和地面圖像，為任何視點(diǎn)生成各種 3D 模型比例。

38、ClipCap: CLIP Prefix for Image Captioning

https://arxiv.org/abs/2111.09734

CLIP 是一種將圖像與文本作為指南鏈接的模型。一個(gè)非常相似的任務(wù)稱為圖像字幕，聽起來很簡單，但實(shí)際上也同樣復(fù)雜。它體現(xiàn)了機(jī)器生成圖像自然描述的能力。簡單標(biāo)記您在圖像中看到的對象很容易，但理解單個(gè)二維圖片則是另一回事，這個(gè)新模型做得非常好。

參考資料：

https://github.com/louisfb01/best_AI_papers_2021#6

往期精彩：
 時(shí)隔一年！深度學(xué)習(xí)語義分割理論與代碼實(shí)踐指南.pdf第二版來了！
 基于 docker 和 Flask 的深度學(xué)習(xí)模型部署！
 新書預(yù)告 | 《機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)》出版在即！

Github大盤點(diǎn)！2021年最驚艷的38篇AI論文

Github大盤點(diǎn)！2021年最驚艷的38篇AI論文