loading

OpenAI의 새로운 이미지 생성 모델, DALLE-3의 등장


ChatGPT, DALLE-3, Text to Image

Published on September 21, 2023 by JunYoung

AI Deep learning Generative model

4 min READ

이미지 생성 기술인 DALLE보다는 ChatGPT로 일반 대중들에게 보다 빠르게 다가갈 수 있었던 OpenAI가 자체 이미지 generative AI 모델인 Dalle의 세번째 버전을 공개하였다. Stable diffusion과 같이 프롬프트 기반의 image 생성 AI라는 점에서 큰 차이는 없지만 눈에 띄는 변화는 바로 ChatGPT와의 연동성이라고 볼 수 있다. 언어 모델을 통해 프롬프트 엔지니어링으로부터 자유로워지는 것은 사용자로 하여금 한정적인 리소스 공간 상에서 최대한의 효율을 뽑아낼 수 있다는 이점이 생기는 것이다.


DALLE 기존의 모델

DALLE를 논문으로 봐왔던 사람이면 알겠지만 가장 첫번째 버전이었던 Zero-Shot Text-to-Image Generation는 트랜스포머 기반의 토큰 형태로의 학습을 위해 discrete VAE를 활용한다. 예컨데 트랜스포머에서 image와 text의 연관 학습을 위해서는 텍스트를 인코딩하는 것 뿐만 아니라 이미지를 패치 단위로 분리하거나 autoencoder와 같은 approach를 통해 인코딩해서 사용한다.

물론 트랜스포머 기반이라는 점, dVAE를 통해 이미지를 축소한 뒤 이를 재복원하는 작업을 해보면 알 수 있듯 $32 \times 32$의 이미지 토큰이 이미 충분한 이미지 정보를 내포한다는 점에서 대용량의 학습을 통해 zero-shot image generation 성능을 보장할 수 있었으나, 가장 큰 문제는 필연적으로 인코딩 과정에서 트랜스포머 인코더의 modality로 사용되는 이미지 퀄리티를 손해봐야한다는 점과 prompt와의 연관성이 그리 높지 않은 이미지(논리적으로 부합하지 않는 샘플링)가 나타난다는 점이다. 이는 Autoregressive한 모델링에서 주로 발생하는 문제라고 할 수 있다. 따라서 OpenAI에서 두번째 DALLE인 Hierarchical Text-Conditional Image Generation with CLIP Latents 논문을 제안할 때는 이러한 기존 프레임워크에서 벗어나고자 diffusion prior를 가져왔다. 기존 본인들이 제안한 기술로는 생성 성능의 한계점이 명확할 것이기 때문이다.

학습 과정을 보면 GLIDE paper로부터 많은 영감을 받은 것을 확인할 수 있는데 이에 대한 내용은 본인 블로그의 GLIDE 리뷰글 그리고 Contintioned diffusion models에 대한 글을 보면 도움이 될 것이다. 논문만 보면 텍스트 프롬프트를 주었을 때 충분한 성능을 보여주는 것 같지만, 실은 그렇지 않고 이미지 상에서 프롬프트가 제시한 디테일을 잘 살리지 못하는 경우가 많고, 이는 곧 프롬프트 엔지니어링의 관점이나 학습 과정에서의 noisy한 context의 문제로 돌아가게 된다.


DALLE-3의 문맥 파악 능력

DALLE-3가 가지는 가장 큰 특징은 본인들은 ChatGPT와의 연결을 통해 사용자로 하여금 DALLE-3를 최대한의 효율로 사용하기 위한 프롬프트를 자동으로 유틸라이즈한다는 것이다.

그래서 그런지 OpenAI의 DALLE-3 홍보 영상을 보면 이러한 흐름이 아주 잘 드러나는데, 고슴도치 캐릭터를 그리는 와중에 사용자의 목적에 맞게 (딸 아이의 묘사를 잘 드러내는 캐릭터 생성 $\rightarrow$ 딸 아이가 고슴도치에게 이름을 지어줌 $\rightarrow$ 고슴도치의 성격(property)를 보여줄 수 있는 그림을 생성해줌) 이를 지속적으로 수정해가는 과정을 보여준다.

그저 ChatGPT API에게 그림에 대한 부탁만 하면 이에 맞게 그림을 그려준다는 것이다. 사실 아직 모델링에 대한 내용은 알지 못하므로 이미지 생성 AI 기술 자체가 발전했다는 사실은 발견하기 힘들다. 그저 프롬프트 제안을 통해 사용자가 매뉴얼하게 넣어주지 못하는 엔지니어링을 대신해준다는 것. 프롬프트 엔지니어라는 직업조차도 이제는 무색해지지 않을까?


새로운 이미지 생성 AI, 접근성은?

DALLE는 Stable diffusion으로 유명한 Stability AI나 Midjourney와 같은 유명한 생성 모델 회사보다도 먼저 기술 도입을 하였고, DALLE 2번째 버전이 나왔을 당시에는 당시에는 DALLE 때의 여러 비판들을 수용하기 위해 waitlist를 작성하여 bias되는 이미지나 샘플의 생성을 막고 이를 제어하고자 했다. 그리고나서 비로소 작년 9월 DALLE는 드디어 waitlist를 떼고 대중들 앞에 나설 수 있게 되었다.

그리고 올해 10월, DALLE의 세번째 버전은 드디어 ChatGPT Plus 및 Enterprise(모두 유료 버전)에 한하여 공개된다. 그런 뒤 API 서비스가 공개될 예정이다. OpenAI는 DALLE 3의 출시에 대해 단계적으로 계획 중이지만 아직 무료 공개 버전이 언제 출시될지는 확약하지 않았다.


새로운 이미지 생성 AI, 안정성이나 저작권 문제는 없나?

OpenAI가 주장한 바에 따르면 DALLE의 새로운 모델은 부정적인 이미지 샘플 생성을 막기 위한 여러 작업을 도입했다고 한다. 예컨데 모델링 관점에서 red teamers(외부의 적)과 같은 관계를 만들어 system의 취약점을 파고드는 형태로 adversarial하게 기술을 업그레이드 하였으며, input classifier(분류기)를 통해 language model로 하여금 위험하거나 폭력적인 prompt를 이미지 생성 과정에서 배제할 수 있게끔 하였다. 또한 생성 모델의 문제점 중 하나인 public figure 또한 생성하지 않을 수 있게 막았다고 주장하는 바다. 그러나 회사의 정책 연구원인 샌디니 아가르왈(Sandhini Agarwal)은 안전 조치에 대한 높은 신뢰를 가지고 있다고 언급했으나, 모델은 계속해서 개선 중이며 완벽하지 않다고 설명한다.

그리고 사실 생성 AI라고 한다면 저작권과 관련된 문제가 가장 이슈가 되는데, OpenAI 대표는 DALL-E 3은 특정 아티스트의 스타일로 이미지를 생성하지 않도록 학습되었다고 밝힌다. 이는 프롬프트에 따라 특정 아티스트의 스타일로 예술을 모방할 수 있는 기존 DALLE와는 큰 차이가 있다.

OpenAI는 가능한 저작권 및 독창성과 관련된 소송을 피하기 위해 이후의 DALLE framework에서는 아티스트가 자신의 예술작품을 선택적으로 제외할 수 있도록 할 것으로 보인다. 예술가가 자신의 소유권이 있는 샘플을 제출하고 양식을 통해 삭제를 요청할 수 있으며, 해당 예술가의 이미지와 스타일과 유사한 샘플링을 차단할 수 있게 된다. 이는 예술가들이 OpenAI의 경쟁사인 Stability AI와 Midjourney, 그리고 아트 웹사이트인 DeviantArt를 고소하여, 본인들의 저작권이 달려있는 작품들을 학습에 활용했다는 점을 밝혔고 이는 곧 앞으로의 이미지 생성 모델이 여러 윤리적이나 법적 책임을 따라야한다는 점을 시사한다.

A n o t h e r p o s t i n c a t e g o r y