Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions #3

Open
Dongwoo-Im opened this issue Nov 7, 2023 · 0 comments
Open

Comments

@Dongwoo-Im
Copy link
Owner

Project : https://syncdiffusion.github.io/


Image outpainting과 같은 montage generation 분야에 diffusion 모델을 사용하면, 이미지 전체에 일관성을 유지하기 어렵다고 한다.

image

SyncDiffusion에서는 latent-level에서 anchor windows와 일관성을 유지하도록 guidance하여 이 문제를 해결할 수 있다고 주장한다. (LPIPS score 차이가 줄어들도록 noisy image를 gradient descent로 update하는 방식)

image

알고리즘 1에 등장하는 MultiDiffusion은 montage generation task를 다루었던 논문으로, 여기서는 큰 사이즈의 이미지를 denoising하고 난 다음, small image를 pretrained diffusion model로 denoising시켜 얻은 결과를 guidance로 삼아, 큰 사이즈의 이미지 생성이 가능하도록 하였습니다. (여기서는 FTD loss라고 명명한 pixel distance based loss 사용)

어쨌든 위 논문에서 각각의 small image에서 예측되는 noise 값이, global space로 퍼질 수 있도록 하는 수식이 line 7에 해당


target하는 시나리오는 Text-Guided Panorama Generation 이다. (pretrained model = Stable diffusion 2.0)

  • 만약 512 x 3072 이미지를 만들고 싶다면 (latent는 64 x 384)
  • 각각의 window는 512 x 512 이고, stride는 128이라고 한다. (latent stride는 16)
  • 즉, 위 시나리오에서는 총 21개의 window 필요 (center window = anchor)

image

w는 gradient descent weight로, weight decay를 0.95로 지정했다고 함

평가 지표

  • Coherence : window가 겹치지 않도록 나눈 다음, 각 match에서의 LPIPS/Style loss 값의 평균
    • Intra-LPIPS
    • Intra-Style-L
  • Fidelity
    • Mean-GIQA : window가 겹치지 않도록 나눈 다음, anchor window와 나머지 window 사이의 GIQA metric
  • Fidelity & Diversity
    • FID
    • KID
  • Compatibility with Prompt
    • Mean-CLIP-S

image

Coherence 향상을 위해 diversity는 약간 손해를 본 모습이다. (MultiDiffusion과 비교하여)

image

user study 결과, 생성 퀄리티는 더 좋다고 볼 수 있을듯

image

이외에 layout-guided image generation, 360 degree panorama generation에도 apllication이 가능하다고 한다.


image

w를 조절하여 coherence와 diversity를 조절할 수 있게 한다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant