培訓(xùn)啦留學(xué) 留學(xué)資訊

紐倫堡大學(xué)(假3D場(chǎng)景逼真到火爆外網(wǎng))

發(fā)布時(shí)間: 2025年04月21日 02:31

【2025年出國(guó)留學(xué)、雅思、托福、小語(yǔ)種、留學(xué)考試】專業(yè)咨詢 >>

您好！我是劉老師，請(qǐng)問您想了解出國(guó)留學(xué)、語(yǔ)言考試嗎？

點(diǎn)擊咨詢

蕭簫楊凈發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

先來看一段“視頻”，有沒有看出什么不對(duì)勁的地方？

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

其實(shí)，這僅僅是由一組照片渲染出來的（右下角為拍攝照片）！

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

生成的也不僅僅是一段視頻，更是一個(gè)3D場(chǎng)景模型，不僅能任意角度隨意切換、高清無死角，還能調(diào)節(jié)曝光、白平衡等參數(shù)，生成船新的照片：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

在完全不同的場(chǎng)景下，例如一個(gè)坦克廠中，同樣能用一組照片渲染出逼真3D場(chǎng)景，相同角度與真實(shí)拍攝圖像幾乎“完全一致”：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

要知道，之前蘋果雖然也做過一組照片生成目標(biāo)物體3D模型的功能，但最多就是一件物體，例如一只箱子：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

這次可是整個(gè)3D場(chǎng)景！

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

這是德國(guó)埃爾朗根-紐倫堡大學(xué)的幾位研究人員做的項(xiàng)目，效果一出就火得不行，在國(guó)外社交媒體上贊數(shù)超過5k，閱讀量達(dá)到36w+。

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

那么，這樣神奇的效果，究竟是怎么生成的呢？

用照片還原整個(gè)3D場(chǎng)景圖

整體來說，這篇論文提出了一種基于點(diǎn)的可微神經(jīng)渲染流水線ADOP（Approximate Differentiable One-Pixel Point Rendering），用AI分析輸入圖像，并輸出新角度的新圖像。

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

在輸入時(shí)，由于需要建模3D場(chǎng)景，因此這里的照片需要經(jīng)過嚴(yán)格拍攝，來獲取整個(gè)場(chǎng)景的稀疏點(diǎn)云數(shù)據(jù)。

具體來說，作者在從照片獲取點(diǎn)云數(shù)據(jù)時(shí)，采用了COLMAP。

先從多個(gè)不同的角度拍攝場(chǎng)景中的照片，其中每張照片的視角都會(huì)經(jīng)過嚴(yán)格控制。

然后采用SfM（Structure From Motion，運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)）方法，來獲取相機(jī)內(nèi)外參數(shù)，得到整個(gè)場(chǎng)景的3D重建數(shù)據(jù)，也就是表示場(chǎng)景結(jié)構(gòu)的稀疏點(diǎn)云：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

然后，包含點(diǎn)云等信息的場(chǎng)景數(shù)據(jù)會(huì)被輸入到流水線中，進(jìn)行進(jìn)一步的處理。

流水線（pipeline）主要分為三個(gè)部分：可微光柵化器、神經(jīng)渲染器和可微色調(diào)映射器。

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

首先，利用多分辨率的單像素點(diǎn)柵格化可微渲染器（可微光柵化器），將輸入的相機(jī)參數(shù)、重建的點(diǎn)云數(shù)據(jù)轉(zhuǎn)換成稀疏神經(jīng)圖像。

其中，模型里關(guān)于圖像和點(diǎn)云對(duì)齊的部分，采用了NavVis數(shù)據(jù)集來訓(xùn)練。

然后，利用神經(jīng)渲染器，對(duì)稀疏神經(jīng)圖像進(jìn)行陰影計(jì)算和孔洞填充，生成HDR圖片。

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

最后，由于不是每個(gè)設(shè)備都支持HDR畫面，因此在顯示到LDR設(shè)備之前，還需要利用基于物理的可微色調(diào)映射器改變動(dòng)態(tài)范圍，將HDR圖像變成LDR圖像。

每個(gè)場(chǎng)景300+圖像訓(xùn)練

這個(gè)新模型的優(yōu)勢(shì)在哪里？

由于模型的所有階段都可微，因此這個(gè)模型能夠優(yōu)化場(chǎng)景所有參數(shù)（相機(jī)模型、相機(jī)姿勢(shì)、點(diǎn)位置、點(diǎn)顏色、環(huán)境圖、渲染網(wǎng)絡(luò)權(quán)重、漸暈、相機(jī)響應(yīng)函數(shù)、每張圖像的曝光和每張圖像的白平衡），并用來生成質(zhì)量更高的圖像。

具體到訓(xùn)練上，作者先是采用了688張圖片（包含73M個(gè)點(diǎn)）來訓(xùn)練這個(gè)神經(jīng)渲染流水線（pipeline）。

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

針對(duì)demo中的幾個(gè)場(chǎng)景（火車、燈塔、游樂園、操場(chǎng)等），作者們分別用高端攝像機(jī)拍攝了300~350張全高清圖像，每個(gè)場(chǎng)景生成的像素點(diǎn)數(shù)量分別為10M、8M、12M和11M，其中5%的圖像用作測(cè)試。

也就是說，制作這樣一個(gè)3D場(chǎng)景，大約需要幾百?gòu)垐D像，同時(shí)每張圖像的拍攝需要經(jīng)過嚴(yán)格的角度控制。

不過仍然有讀者表示，拍幾百?gòu)垐D像就能用AI做個(gè)場(chǎng)景出來，這個(gè)速度比當(dāng)前人工渲染是要快多了。

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

功能上，模型既能生成可以調(diào)節(jié)參數(shù)的新角度照片，還能自動(dòng)插值生成全場(chǎng)景的3D渲染視頻，可以說是挺有潛力的。

那么，這個(gè)模型的效果與當(dāng)前其他模型的渲染效果相比如何呢？

實(shí)時(shí)顯示1億+像素點(diǎn)場(chǎng)景

據(jù)作者表示，論文中采用的高效單像素點(diǎn)柵格化方法，使得ADOP能夠使用任意的相機(jī)模型，并實(shí)時(shí)顯示超過1億個(gè)像素點(diǎn)的場(chǎng)景。

肉眼分辨生成結(jié)果來看，采用同行幾個(gè)最新模型生成的圖片，或多或少會(huì)出現(xiàn)一些偽影或是不真實(shí)的情況，相比之下ADOP在細(xì)節(jié)上處理得都非常不錯(cuò)：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

從數(shù)據(jù)來看，無論是火車、操場(chǎng)、坦克還是燈塔場(chǎng)景，在ADOP模型的渲染下，在VGG、LPIPS和PSNR上幾乎都能取得最優(yōu)秀的結(jié)果（除了坦克的數(shù)據(jù)）。

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

不過，研究本身也還具有一些局限性，例如單像素點(diǎn)渲染仍然存在點(diǎn)云稀疏時(shí)，渲染出現(xiàn)孔洞等問題。

但整體來看，實(shí)時(shí)顯示3D場(chǎng)景的效果還是非常出類拔萃的，不少業(yè)內(nèi)人士表示“達(dá)到了AI渲染新高度”。

已經(jīng)有不少網(wǎng)友開始想象這項(xiàng)研究的用途，例如給電影制片廠省去一大波時(shí)間和精力：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

（甚至有電影系的學(xué)生想直接用到畢設(shè)上）

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

對(duì)游戲行業(yè)影響也非常不錯(cuò)：

在家就能搞3A大作的場(chǎng)景，是不是也要實(shí)現(xiàn)了？簡(jiǎn)直讓人迫不及待。

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

還有人想象，要是能在iPhone上實(shí)現(xiàn)就好了（甚至已經(jīng)給iPhone 15預(yù)定上了）：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

對(duì)于研究本身，有網(wǎng)友從行外人視角看來，感覺更像是插幀模型（也有網(wǎng)友回應(yīng)說差不多是這樣）：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

也有網(wǎng)友表示，由于需要的圖像比較多，效果沒有宣傳中那么好，對(duì)研究潛力持保留態(tài)度：

假3D場(chǎng)景逼真到火爆外網(wǎng)！超1億像素?zé)o死角，被贊AI渲染新高度

雖然目前作者們已經(jīng)建立了GitHub項(xiàng)目，但代碼還沒有放出來，感興趣的同學(xué)們可以先蹲一波。

至于具體的開源時(shí)間，作者們表示“會(huì)在中了頂會(huì)后再放出來”。（祝這篇論文成功被頂會(huì)收錄~）

論文地址：
https://arxiv.org/abs/2110.06635

項(xiàng)目地址(代碼還沒po出來)：
https://github.com/darglein/ADOP

參考鏈接：
[1]https://www.reddit.com/r/MachineLearning/comments/q9phnq/r_adop_approximate_differentiable_onepixel_point/
[2]https://twitter.com/ak92501/status/1448489762990563331
[3]https://developer.apple.com/augmented-reality/object-capture/

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們，第一時(shí)間獲知前沿科技動(dòng)態(tài)

溫馨提示：

本文【紐倫堡大學(xué)(假3D場(chǎng)景逼真到火爆外網(wǎng))】由作者教培參考提供。該文觀點(diǎn)僅代表作者本人，培訓(xùn)啦系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)空間服務(wù)，若存在侵權(quán)問題，請(qǐng)及時(shí)聯(lián)系管理員或作者進(jìn)行刪除。

上一篇: 2021到英國(guó)留學(xué)要多少錢？

下一篇: 中國(guó)政法大學(xué)排名(2021政法類大學(xué)排名出爐)

相關(guān)閱讀