본문으로 이동

텍스트-이미지 모델

위키백과, 우리 모두의 백과사전.
2022년에 처음 출시된 대규모 텍스트-이미지 모델인 스테이블 디퓨전 3.5로 생성된, 말을 타는 우주비행사, 우타가와 히로시게라는 프롬프트에 의해 조건화된 이미지

텍스트-이미지 모델(Text-to-image model)은 자연어 설명을 입력받아 그 설명에 맞는 이미지를 생성하는 기계 학습 모델이다.

텍스트-이미지 모델은 심층 신경망의 발전에 힘입어 AI 붐이 시작되던 2010년대 중반부터 개발되기 시작했다. 2022년에는 OpenAI의 DALL-E 2, 구글 브레인이매진, Stability AI의 스테이블 디퓨전, Midjourney와 같은 최첨단 텍스트-이미지 모델의 결과물이 실제 사진과 인간이 그린 예술에 버금가는 품질로 평가받기 시작했다.

텍스트-이미지 모델은 일반적으로 입력 텍스트를 잠재 표현으로 변환하는 언어 모델과 그 표현을 조건으로 이미지를 생성하는 생성 모델을 결합한 잠재 확산 모델이다. 가장 효과적인 모델은 일반적으로 웹에서 스크래핑한 방대한 양의 이미지 및 텍스트 데이터로 학습되었다.[1]

역사

[편집]

딥 러닝이 등장하기 전에는 텍스트-이미지 모델을 구축하려는 시도가 클립 아트 데이터베이스에서 기존 구성 이미지들을 배열하여 콜라주를 만드는 것에 국한되었다.[2][3]

그 반대 작업인 이미지 캡셔닝은 더 다루기 쉬웠으며, 첫 텍스트-이미지 모델 이전에 여러 이미지 캡셔닝 딥 러닝 모델이 등장했다.[4]

AlignDRAW (2015)의 하늘을 나는 정지 신호.[5]
OpenAI의 DALL-E 2 (2022), DALL-E 3 (2023), 및 GPT Image 1 (2025)의 하늘을 나는 정지 신호

최초의 현대적인 텍스트-이미지 모델인 alignDRAW는 2015년 토론토 대학교 연구원들이 소개했다. alignDRAW는 이전에 소개된 DRAW 아키텍처(어텐션 메커니즘이 있는 순환 변분 오토인코더 사용)를 확장하여 텍스트 시퀀스에 조건화되도록 했다.[4] alignDRAW로 생성된 이미지는 작은 해상도(크기 조정을 통해 얻은 32×32 픽셀)였으며 '다양성이 낮다'고 여겨졌다. 이 모델은 훈련 데이터에 없는 객체(빨간색 스쿨버스 등)로 일반화할 수 있었고, "파란 하늘을 나는 정지 신호"와 같은 새로운 프롬프트를 적절히 처리하여 훈련 세트의 데이터를 단순히 "기억"하는 것이 아님을 보여주는 결과물을 나타냈다.[4][6]

2016년, Reed, Akata, Yan 외 연구진은 텍스트-이미지 작업에 생성적 적대 신경망을 처음으로 사용했다.[6][7] 제한된 특정 도메인 데이터 세트에서 훈련된 모델로 "뚜렷하고 두꺼운 둥근 부리를 가진 완전히 검은 새"와 같은 텍스트 캡션에서 새와 꽃의 "시각적으로 그럴듯한" 이미지를 생성할 수 있었다. 보다 다양한 COCO (Common Objects in Context) 데이터 세트에서 훈련된 모델은 "멀리서 보면... 고무적인" 이미지를 생성했지만, 세부 사항의 일관성이 부족했다.[6] 이후의 시스템에는 VQGAN-CLIP,[8] XMC-GAN, GauGAN2 등이 있다.[9]

광범위한 대중의 관심을 끈 최초의 텍스트-이미지 모델 중 하나는 오픈AIDALL-E로, 2021년 1월에 발표된 트랜스포머 시스템이다.[10] 더 복잡하고 현실적인 이미지를 생성할 수 있는 후속 모델인 DALL-E 2는 2022년 4월에 공개되었고,[11] 이어서 2022년 8월에는 스테이블 디퓨전이 공개되었다.[12] 2022년 8월에는 텍스트-이미지 개인화를 통해 텍스트-이미지 기반 모델의 훈련 세트에 포함되지 않은 새 객체의 작은 이미지 세트를 사용하여 모델에 새로운 개념을 가르칠 수 있게 되었다. 이는 텍스트 역변환, 즉 이러한 이미지에 해당하는 새로운 텍스트 용어를 찾는 방식으로 이루어진다.

다른 텍스트-이미지 모델에 이어, 언어 모델 기반의 텍스트-비디오 플랫폼인 Runway, Make-A-Video,[13] Imagen Video,[14] Midjourney,[15] Phenaki[16] 등이 텍스트 및 텍스트/이미지 프롬프트에서 비디오를 생성할 수 있다.[17]

아키텍처 및 훈련

[편집]
클릭 가능한 SVG 이미지 맵으로 보여주는 AI 예술 기계 학습 모델의 상태와 주목할 만한 모델 및 응용 프로그램을 보여주는 상위 수준 아키텍처

텍스트-이미지 모델은 다양한 아키텍처를 사용하여 구축되었다. 텍스트 인코딩 단계는 장단기 메모리 (LSTM) 네트워크와 같은 순환 신경망으로 수행할 수 있지만, 그 이후로는 트랜스포머 모델이 더 인기 있는 옵션이 되었다. 이미지 생성 단계에서는 조건부 생성적 적대 신경망 (GAN)이 일반적으로 사용되었으며, 최근 몇 년 동안 확산 모델도 인기 있는 옵션이 되었다. 텍스트 임베딩에 조건화된 고해상도 이미지를 직접 출력하도록 모델을 훈련하는 대신, 저해상도 이미지를 생성하도록 모델을 훈련하고 하나 이상의 보조 딥 러닝 모델을 사용하여 업스케일링하여 더 미세한 세부 사항을 채우는 인기 있는 기술이 있다.

텍스트-이미지 모델은 종종 웹에서 스크래핑한 (텍스트, 이미지) 쌍의 대규모 데이터 세트에서 훈련된다. 2022년 이매진 모델에서 구글 브레인은 텍스트 전용 코퍼스에서 별도로 훈련된 대형 언어 모델을 사용하는 것으로부터 긍정적인 결과를 보고했으며(가중치는 이후 고정됨), 이는 그때까지의 표준 접근 방식에서 벗어난 것이다.[18]

데이터 세트

[편집]
텍스트-이미지 모델을 훈련하는 데 일반적으로 사용되는 세 가지 공개 데이터 세트의 이미지 및 캡션 예시

텍스트-이미지 모델을 훈련하려면 텍스트 캡션과 쌍을 이루는 이미지 데이터 세트가 필요하다. 이러한 목적으로 일반적으로 사용되는 데이터 세트 중 하나는 COCO 데이터 세트이다. 마이크로소프트가 2014년에 출시한 COCO는 인간 주석자가 생성한 이미지당 5개의 캡션이 있는 다양한 객체를 묘사하는 약 123,000개의 이미지로 구성된다. 원래 COCO의 주요 초점은 이미지에서 객체와 장면을 인식하는 것이었다. Oxford-120 Flowers와 CUB-200 Birds는 각각 약 10,000개의 이미지로 구성된 더 작은 데이터 세트로, 각각 꽃과 새로 제한된다. 이러한 데이터 세트는 주제 범위가 좁기 때문에 고품질 텍스트-이미지 모델을 훈련하기가 덜 어렵다고 여겨진다.[7]

텍스트-이미지 모델 훈련을 위한 가장 큰 공개 데이터 세트 중 하나는 50억 개 이상의 이미지-텍스트 쌍을 포함하는 LAION-5B이다. 이 데이터 세트는 웹 스크래핑과 고품질 예술 작품 및 전문 사진과의 유사성을 기반으로 자동 필터링하여 만들어졌다. 그러나 이로 인해 논란의 여지가 있는 콘텐츠도 포함되어 있어 사용 윤리에 대한 논의가 이루어지고 있다.

일부 최신 AI 플랫폼은 텍스트에서 이미지를 생성할 뿐만 아니라 합성 데이터 세트를 생성하여 모델 훈련 및 미세 조정을 개선한다. 이러한 데이터 세트는 저작권 문제를 피하고 훈련 데이터의 다양성을 확대하는 데 도움이 된다.[19]

품질 평가

[편집]

텍스트-이미지 모델의 품질을 평가하고 비교하는 것은 여러 바람직한 속성을 평가하는 문제이다. 텍스트-이미지 모델에 특정한 바람직한 점은 생성된 이미지가 생성에 사용된 텍스트 캡션과 의미적으로 일치한다는 것이다. 이러한 품질을 평가하기 위해 자동화된 방식과 인간 판단을 기반으로 하는 방식 등 여러 가지 방법이 고안되었다.[7]

이미지 품질과 다양성을 평가하기 위한 일반적인 알고리즘 메트릭은 인셉션 점수 (IS)로, 텍스트-이미지 모델이 생성한 샘플 이미지에 대해 사전 훈련된 인셉션v3 이미지 분류 모델이 예측한 레이블 분포를 기반으로 한다. 이 점수는 이미지 분류 모델이 단일 레이블을 높은 확률로 예측할 때 증가하며, 이는 "뚜렷한" 생성 이미지를 선호하도록 설계된 방식이다. 또 다른 인기 있는 메트릭은 관련 프레쳇 인셉션 거리로, 사전 훈련된 이미지 분류 모델의 최종 레이어 중 하나에서 추출한 특징에 따라 생성된 이미지와 실제 훈련 이미지의 분포를 비교한다.[7]

주목할 만한 텍스트-이미지 모델 목록

[편집]
이름 출시일 개발사 라이선스
DALL-E 2021년 1월 오픈AI 독점
DALL-E 2 2022년 4월
DALL-E 3 2023년 9월
GPT Image 1 2025년 3월[주 1]
아이디오그램 0.1 2023년 8월 아이디오그램
아이디오그램 2.0 2024년 8월
아이디오그램 3.0 2025년 3월
이매진 2023년 4월 구글
이매진 2 2023년 12월[21]
이매진 3 2024년 5월
파르티 미출시
파이어플라이 2023년 3월 어도비
Midjourney 2022년 7월 Midjourney, Inc.
하프문 2025년 3월 Reve AI, Inc.
스테이블 디퓨전 2022년 8월 Stability AI Stability AI 커뮤니티 라이선스[주 2]
플럭스 2024년 8월 Black Forest Labs 아파치 라이선스[주 3]
오로라 2024년 12월 xAI 독점
RunwayML 2018 Runway AI, Inc. 독점
오라플로우 2024년 7월 FAL 아파치 라이선스
하이드림 2025년 4월 HiDream-AI MIT 라이선스

같이 보기

[편집]

내용주

[편집]
  1. 처음에는 GPT-4o 이미지 생성으로 언급되었다.[20]
  2. 이 라이선스는 매출 100만 달러 이하의 개인 및 조직이 사용할 수 있으며, 연 매출 100만 달러 이상인 조직의 경우 Stability AI 엔터프라이즈 라이선스가 필요하다. 모든 출력물은 매출과 상관없이 사용자가 소유한다.
  3. Schnell 모델의 경우, Dev 모델은 비상업적 라이선스를 사용하며 Pro 모델은 독점(오직 API로만 사용 가능)이다.

참조주

[편집]
  1. Vincent, James (2022년 5월 24일). “All these images were generated by Google's latest text-to-image AI”. 《The Verge》 (Vox Media). 2023년 2월 15일에 원본 문서에서 보존된 문서. 2022년 5월 28일에 확인함. 
  2. Agnese, Jorge; Herrera, Jonathan; Tao, Haicheng; Zhu, Xingquan (October 2019), 《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》, arXiv:1910.09399 
  3. Zhu, Xiaojin; Goldberg, Andrew B.; Eldawy, Mohamed; Dyer, Charles R.; Strock, Bradley (2007). 《A text-to-picture synthesis system for augmenting communication》 (PDF). 《AAAI》 7. 1590–1595쪽. 2022년 9월 7일에 원본 문서 (PDF)에서 보존된 문서. 2022년 9월 7일에 확인함. 
  4. Mansimov, Elman; Parisotto, Emilio; Lei Ba, Jimmy; Salakhutdinov, Ruslan (November 2015). 《Generating Images from Captions with Attention》. 《ICLR》. arXiv:1511.02793. 
  5. Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (2016년 2월 29일). 《Generating Images from Captions with Attention》. 《International Conference on Learning Representations》. arXiv:1511.02793. 
  6. Reed, Scott; Akata, Zeynep; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak (June 2016). 《Generative Adversarial Text to Image Synthesis》 (PDF). 《International Conference on Machine Learning》. arXiv:1605.05396. 2023년 3월 16일에 원본 문서 (PDF)에서 보존된 문서. 2022년 9월 7일에 확인함. 
  7. Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (December 2021). 《Adversarial text-to-image synthesis: A review》. 《Neural Networks》 144. 187–209쪽. arXiv:2101.09983. doi:10.1016/j.neunet.2021.07.019. PMID 34500257. S2CID 231698782. 
  8. Rodriguez, Jesus (2022년 9월 27일). “🌅 Edge#229: VQGAN + CLIP”. 《thesequence.substack.com》 (영어). 2022년 12월 4일에 원본 문서에서 보존된 문서. 2022년 10월 10일에 확인함. 
  9. Rodriguez, Jesus (2022년 10월 4일). “🎆🌆 Edge#231: Text-to-Image Synthesis with GANs”. 《thesequence.substack.com》 (영어). 2022년 12월 4일에 원본 문서에서 보존된 문서. 2022년 10월 10일에 확인함. 
  10. Coldewey, Devin (2021년 1월 5일). “OpenAI's DALL-E creates plausible images of literally anything you ask it to”. 《TechCrunch》. 2021년 1월 6일에 원본 문서에서 보존된 문서. 2022년 9월 7일에 확인함. 
  11. Coldewey, Devin (2022년 4월 6일). “OpenAI's new DALL-E model draws anything — but bigger, better and faster than before”. 《TechCrunch》. 2023년 5월 6일에 원본 문서에서 보존된 문서. 2022년 9월 7일에 확인함. 
  12. “Stable Diffusion Public Release”. 《Stability.Ai》. 2022년 8월 30일에 원본 문서에서 보존된 문서. 2022년 10월 27일에 확인함. 
  13. Kumar, Ashish (2022년 10월 3일). “Meta AI Introduces 'Make-A-Video': An Artificial Intelligence System That Generates Videos From Text”. 《MarkTechPost》 (미국 영어). 2022년 12월 1일에 원본 문서에서 보존된 문서. 2022년 10월 3일에 확인함. 
  14. Edwards, Benj (2022년 10월 5일). “Google's newest AI generator creates HD video from text prompts”. 《Ars Technica》 (미국 영어). 2023년 2월 7일에 원본 문서에서 보존된 문서. 2022년 10월 25일에 확인함. 
  15. Rodriguez, Jesus (2022년 10월 25일). “🎨 Edge#237: What is Midjourney?”. 《thesequence.substack.com》 (영어). 2022년 12월 4일에 원본 문서에서 보존된 문서. 2022년 10월 26일에 확인함. 
  16. “Phenaki”. 《phenaki.video》. 2022년 10월 7일에 원본 문서에서 보존된 문서. 2022년 10월 3일에 확인함. 
  17. Edwards, Benj (2022년 9월 9일). “Runway teases AI-powered text-to-video editing using written prompts”. Ars Technica. 2023년 1월 27일에 원본 문서에서 보존된 문서. 2022년 9월 12일에 확인함. 
  18. Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (2022년 5월 23일). “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”. arXiv:2205.11487 [cs.CV]. 
  19. Martin (2025년 1월 29일). “AI-Powered Text and Image Generation”. 《Debatly》. 
  20. “Introducing 4o Image Generation”. 《OpenAI》. 2025년 3월 25일. 2025년 3월 27일에 확인함. 
  21. “Imagen 2 on Vertex AI is now generally available”. 《Google Cloud Blog》 (미국 영어). 2024년 2월 21일에 원본 문서에서 보존된 문서. 2024년 1월 2일에 확인함.