You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Image outpainting과 같은 montage generation 분야에 diffusion 모델을 사용하면, 이미지 전체에 일관성을 유지하기 어렵다고 한다.
SyncDiffusion에서는 latent-level에서 anchor windows와 일관성을 유지하도록 guidance하여 이 문제를 해결할 수 있다고 주장한다. (LPIPS score 차이가 줄어들도록 noisy image를 gradient descent로 update하는 방식)
알고리즘 1에 등장하는 MultiDiffusion은 montage generation task를 다루었던 논문으로, 여기서는 큰 사이즈의 이미지를 denoising하고 난 다음, small image를 pretrained diffusion model로 denoising시켜 얻은 결과를 guidance로 삼아, 큰 사이즈의 이미지 생성이 가능하도록 하였습니다. (여기서는 FTD loss라고 명명한 pixel distance based loss 사용)
어쨌든 위 논문에서 각각의 small image에서 예측되는 noise 값이, global space로 퍼질 수 있도록 하는 수식이 line 7에 해당
target하는 시나리오는 Text-Guided Panorama Generation 이다. (pretrained model = Stable diffusion 2.0)
만약 512 x 3072 이미지를 만들고 싶다면 (latent는 64 x 384)
각각의 window는 512 x 512 이고, stride는 128이라고 한다. (latent stride는 16)
즉, 위 시나리오에서는 총 21개의 window 필요 (center window = anchor)
Project : https://syncdiffusion.github.io/
Image outpainting과 같은 montage generation 분야에 diffusion 모델을 사용하면, 이미지 전체에 일관성을 유지하기 어렵다고 한다.
SyncDiffusion에서는 latent-level에서 anchor windows와 일관성을 유지하도록 guidance하여 이 문제를 해결할 수 있다고 주장한다. (LPIPS score 차이가 줄어들도록 noisy image를 gradient descent로 update하는 방식)
알고리즘 1에 등장하는 MultiDiffusion은 montage generation task를 다루었던 논문으로, 여기서는 큰 사이즈의 이미지를 denoising하고 난 다음, small image를 pretrained diffusion model로 denoising시켜 얻은 결과를 guidance로 삼아, 큰 사이즈의 이미지 생성이 가능하도록 하였습니다. (여기서는 FTD loss라고 명명한 pixel distance based loss 사용)
어쨌든 위 논문에서 각각의 small image에서 예측되는 noise 값이, global space로 퍼질 수 있도록 하는 수식이 line 7에 해당
target하는 시나리오는 Text-Guided Panorama Generation 이다. (pretrained model = Stable diffusion 2.0)
w는 gradient descent weight로, weight decay를 0.95로 지정했다고 함
평가 지표
Coherence 향상을 위해 diversity는 약간 손해를 본 모습이다. (MultiDiffusion과 비교하여)
user study 결과, 생성 퀄리티는 더 좋다고 볼 수 있을듯
이외에 layout-guided image generation, 360 degree panorama generation에도 apllication이 가능하다고 한다.
w를 조절하여 coherence와 diversity를 조절할 수 있게 한다.
The text was updated successfully, but these errors were encountered: