主要收獲

  • <menuitem id="nafkm"></menuitem>
    方面詳細(xì)信息
    7}深度無監(jiān)督學(xué)習(xí)的新方法
    7}

    在復(fù)雜數(shù)據(jù)集上生成對抗性視頻

    雙視頻判別器 GAN(DVD-GAN)可擴(kuò)展到更長、更高分辨率的視頻,產(chǎn)生高復(fù)雜度和保真度的樣本。它為視頻合成和預(yù)測設(shè)定了新的基準(zhǔn)。

    生成動(dòng)態(tài)場景的長視頻

    一種視頻生成模型,能準(zhǔn)確再現(xiàn)物體運(yùn)動(dòng)和攝像機(jī)視角隨時(shí)間的變化,解決了在生成新內(nèi)容的同時(shí)保持逼真動(dòng)態(tài)效果的難題。

    VideoGPT:使用 VQ-VAE 和變壓器生成視頻

    VideoGPT 采用 VQ-VAE 和變換器對自然視頻進(jìn)行建模,生成高保真樣本,展示了視頻生成簡單架構(gòu)的有效性。

    NüWA:創(chuàng)建神經(jīng)視覺世界的視覺合成預(yù)訓(xùn)練

    NüWA 是一個(gè)用于生成或處理視覺數(shù)據(jù)的多模態(tài)預(yù)訓(xùn)練模型。它采用三維變壓器編碼器-解碼器框架,在各種視覺合成任務(wù)中取得了最先進(jìn)的結(jié)果。

    Imagen Video:利用擴(kuò)散模型生成高清視頻

    Imagen Video 使用文字提示,通過級聯(lián)擴(kuò)散模型生成高清視頻,展示了如何通過文字提示生成高清視頻。

    能夠制作出具有高度可控性的多樣化藝術(shù)視頻。

    對齊你的潛像利用潛在擴(kuò)散模型合成高分辨率視頻

    通過在圖像上進(jìn)行預(yù)訓(xùn)練和在視頻上進(jìn)行微調(diào),將潛在擴(kuò)散模型(LDM)應(yīng)用于高分辨率視頻生成,實(shí)現(xiàn)了最先進(jìn)的性能,并展示了個(gè)性化文本到視頻生成的潛力。

    利用擴(kuò)散模型生成逼真視頻

    W.A.L.T 是一種基于變壓器的方法,利用擴(kuò)散建模生成逼真的視頻,在視頻和圖像生成基準(zhǔn)測試中取得了很高的性能。

    關(guān)注就是一切

    在機(jī)器翻譯等序列轉(zhuǎn)換任務(wù)中,完全基于注意力機(jī)制的 Transformer 模型優(yōu)于遞歸網(wǎng)絡(luò)和卷積網(wǎng)絡(luò),表現(xiàn)出卓越的質(zhì)量和效率。

    語言模型是快速學(xué)習(xí)者

    GPT-3是一個(gè)大型自回歸語言模型,它在NLP任務(wù)中表現(xiàn)出強(qiáng)大的性能,展示了擴(kuò)大語言模型以提高任務(wù)性能的潛力。

    一幅圖像勝過 16×16 個(gè)字:規(guī)模圖像識別的變形金剛

    視覺變換器(ViT)將純變換器直接應(yīng)用于圖像補(bǔ)丁,在圖像分類任務(wù)中取得了優(yōu)異的成績,并證明在視覺任務(wù)中無需依賴 CNN。

    ViViT:視頻視覺轉(zhuǎn)換器

    ViViT 是一種基于變換器的視頻分類模型,它從視頻中提取時(shí)空標(biāo)記并用變換器層對其進(jìn)行編碼,在多個(gè)視頻分類基準(zhǔn)測試中取得了最先進(jìn)的結(jié)果。

    遮蔽式自動(dòng)編碼器是可擴(kuò)展的視覺學(xué)習(xí)器

    本文介紹了可擴(kuò)展的計(jì)算機(jī)視覺自監(jiān)督學(xué)習(xí)器–掩碼自動(dòng)編碼器(MAE),它在大型模型上表現(xiàn)出了高效的訓(xùn)練能力和較高的準(zhǔn)確性。

    Patch N’ Pack:NaViT:適用于任何長寬比和分辨率的視覺變形器

    NaViT 可處理任意分辨率和長寬比的輸入,提高了訓(xùn)練效率,并增強(qiáng)了魯棒性和公平性基準(zhǔn)的結(jié)果。

    利用潛在擴(kuò)散模型合成高分辨率圖像

    潛在擴(kuò)散模型(LDM)通過在強(qiáng)大的預(yù)訓(xùn)練自動(dòng)編碼器的潛在空間中運(yùn)行,實(shí)現(xiàn)了高保真圖像合成和靈活性,為圖像繪制和其他任務(wù)設(shè)定了新標(biāo)準(zhǔn)。

    image

    自動(dòng)編碼變異貝葉斯

    論文介紹了一種隨機(jī)變分推理和學(xué)習(xí)算法,該算法對大型數(shù)據(jù)集和連續(xù)潛變量非常有效,可使用標(biāo)準(zhǔn)隨機(jī)梯度方法進(jìn)行直接優(yōu)化。

    利用非平衡熱力學(xué)進(jìn)行深度無監(jiān)督學(xué)習(xí)

    受非平衡態(tài)統(tǒng)計(jì)物理學(xué)的啟發(fā),我們開發(fā)了一種新穎的深度無監(jiān)督學(xué)習(xí)方法,允許在深度生成模型中快速學(xué)習(xí)和采樣。

    去噪擴(kuò)散概率模型

    針對高質(zhì)量圖像合成引入了擴(kuò)散概率模型,并與去噪分?jǐn)?shù)匹配和朗格文動(dòng)力學(xué)建立了新的聯(lián)系,從而在圖像合成基準(zhǔn)測試中取得了一流的性能。

    改進(jìn)的去噪擴(kuò)散概率模型

    對去噪擴(kuò)散概率模型(DDPMs)進(jìn)行修改后,可獲得具有競爭力的對數(shù)似然和高質(zhì)量的樣本,同時(shí)還能進(jìn)行高效采樣,便于部署。

    擴(kuò)散模型在圖像合成中擊敗廣義泛函模型

    與生成式對抗網(wǎng)絡(luò)(GANs)相比,擴(kuò)散模型可實(shí)現(xiàn)更高的圖像樣本質(zhì)量,并提高了條件圖像合成的保真度和多樣性。

    闡明基于擴(kuò)散的生成模型的設(shè)計(jì)空間

    該論文為基于擴(kuò)散的生成模型提供了一個(gè)清晰的設(shè)計(jì)空間,通過更快的采樣和更高的預(yù)訓(xùn)練分?jǐn)?shù)網(wǎng)絡(luò)效率,實(shí)現(xiàn)了最先進(jìn)的新性能。

    帶變壓器的可擴(kuò)展擴(kuò)散模型

    我們對擴(kuò)散變換器(DiTs)進(jìn)行了探索,結(jié)果表明其具有良好的可擴(kuò)展性,在圖像基準(zhǔn)上優(yōu)于先前的擴(kuò)散模型,其中最大的模型達(dá)到了最先進(jìn)的保真度。

    零鏡頭文本到圖像生成

    本文介紹了一種基于轉(zhuǎn)換器的文本到圖像生成的簡單方法,該方法以零鏡頭方式與特定領(lǐng)域模型競爭。

    內(nèi)容豐富的文本到圖像生成的比例自回歸模型

    Parti 模型可擴(kuò)展自回歸文本到圖像的生成,生成高保真逼真的圖像,并支持復(fù)雜的合成和世界知識。

    利用 CLIP Latents 分層文本條件生成圖像

    一個(gè)兩階段模型利用 CLIP 圖像嵌入技術(shù)從文字說明中生成圖像,從而提高了多樣性,并能以零鏡頭方式進(jìn)行語言引導(dǎo)的圖像處理。

    SDEdit:利用隨機(jī)微分方程引導(dǎo)圖像合成和編輯

    SDEdit 引入了一種用于圖像合成和編輯的擴(kuò)散模型生成先驗(yàn),在逼真度和忠實(shí)于用戶輸入之間取得了平衡,而無需進(jìn)行特定任務(wù)的訓(xùn)練。


    常見問題

    7}
    答:MoCoGAN 可將視頻分解為內(nèi)容和動(dòng)作兩個(gè)部分,從而生成具有不同動(dòng)態(tài)效果的視頻,同時(shí)保持相同的內(nèi)容。

    問:Imagen Video 如何生成高清視頻?
    答:Imagen Video 使用文本提示和級聯(lián)擴(kuò)散模型生成具有高保真和藝術(shù)風(fēng)格的視頻。

    問:擴(kuò)散模型為圖像和視頻合成帶來了哪些進(jìn)步?
    答:擴(kuò)散模型通過更好的架構(gòu)和分類器引導(dǎo)實(shí)現(xiàn)了高質(zhì)量的合成,在各種基準(zhǔn)測試中取得了最先進(jìn)的性能。

    問:變壓器能否有效地用于視頻分類?
    答:是的,像 ViViT 這樣的模型表明,基于純變換器的模型可以在視頻分類中取得最先進(jìn)的結(jié)果。

    問:使用潛在擴(kuò)散模型進(jìn)行圖像合成的優(yōu)勢是什么?
    答:潛在擴(kuò)散模型是在壓縮的潛在空間中運(yùn)行的,因此可以在降低計(jì)算要求的情況下進(jìn)行高分辨率合成。

    問:在圖像合成和編輯過程中,SDEdit 如何平衡真實(shí)感和用戶輸入?
    答:SDEdit 使用擴(kuò)散模型先驗(yàn)生成技術(shù)對圖像進(jìn)行迭代去噪,在逼真度和忠實(shí)于用戶指南之間取得了平衡,而無需進(jìn)行特定任務(wù)的訓(xùn)練。