본문으로 이동

이마젠

위키백과, 우리 모두의 백과사전.
이마젠
개발자구글 딥마인드
발표일2022년 5월(3년 전)(2022-05)
안정화 버전
Imagen 4 / 2025년 5월 20일(2개월 전)(2025-05-20)
종류텍스트-이미지 모델
웹사이트Imagen website

이마젠(Imagen)은 구글 딥마인드가 개발한 텍스트-이미지 모델 시리즈이다. 2023년 4월 딥마인드와 합병되기 전까지는 구글 브레인이 개발했다.[1] 이매진은 주로 Stability AI스테이블 디퓨전, 오픈AIDALL-E, 또는 Midjourney와 유사하게 텍스트 프롬프트에서 이미지를 생성하는 데 사용된다.

이 모델의 오리지널 버전은 2022년 5월 논문에서 처음 논의되었다.[2] 이 도구는 고품질 이미지를 생성하며 제미나이, ImageFX, Vertex AI를 포함한 서비스를 통해 구글 계정을 가진 모든 사용자가 이용할 수 있다.[3]

역사

[편집]

이매진의 오리지널 버전은 2022년 5월에 출판된 논문에서 처음 소개되었다. 이 모델은 자연어에서 높은 충실도의 이미지를 생성하는 기능을 특징으로 했다.[2] 두 번째 버전인 이매진 2는 2023년 12월에 출시되었다.[4] 주요 특징은 텍스트 및 로고 생성 기능이었다.[5] 이매진 3는 2024년 8월에 출시되었다.[6] 구글은 최신 버전이 생성된 이미지에서 더 나은 디테일과 조명을 제공한다고 주장했다.[7] 2025년 5월 20일 구글 I/O 2025에서 회사는 개선된 모델인 이매진 4를 발표했다.[8]

기술

[편집]

이매진은 두 가지 핵심 기술을 사용한다. 첫 번째는 텍스트를 이해하고 이미지 합성을 위해 텍스트를 인코딩하는 데 트랜스포머 기반 대형 언어 모델(T5가 대표적)을 사용하는 것이다. 두 번째는 높은 충실도의 이미지 생성을 제공하는 캐스케이드 디퓨전 모델을 사용하는 것이다. 이미지는 64x64 기본에서 시작하여 256x256 및 1024x1024로 업샘플링되는 세 단계를 거쳐 생성된다.[2]

기능

[편집]

이매진은 텍스트 프롬프트에서 실사와 같은 이미지를 생성할 수 있다.[3] 또한 시네마틱, 35mm 필름, 일러스트레이션, 초현실주의 등 다양한 스타일을 만들 수 있다. 이 모델은 9:16, 3:4, 1:1, 4:3, 16:9의 다섯 가지 종횡비로 이미지를 생성할 수 있다. 이매진은 기존 텍스트 프롬프트를 편집하여 이미 생성된 이미지를 개선할 수도 있다.[7]

같이 보기

[편집]

각주

[편집]
  1. Roth, Emma; Peters, Jay (2023년 4월 20일). “Google's big AI push will combine Brain and DeepMind into one team”. 《더 버지》. 2023년 4월 20일에 원본 문서에서 보존된 문서. 2025년 3월 18일에 확인함. 
  2. Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Seyed Kamyar Seyed Ghasemipour; Burcu Karagol Ayan; Sara Mahdavi, S.; Rapha Gontijo Lopes; Salimans, Tim; Ho, Jonathan; David J Fleet; Norouzi, Mohammad (2022). “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”. arXiv:2205.11487 [cs.CV]. 
  3. Peterson, Jake (2024년 8월 16일). “Anyone With a Google Account Can Try Google's Latest AI Image Generator Right Now”. 《Lifehacker》 (영어). 2025년 3월 18일에 확인함. 
  4. “Imagen 2 - our most advanced text-to-image technology”. 《Google DeepMind》 (영어). 2025년 3월 12일. 2025년 3월 18일에 확인함. 
  5. Wiggers, Kyle (2023년 12월 13일). “Google debuts Imagen 2 with text and logo generation”. 《TechCrunch》 (미국 영어). 2025년 3월 18일에 확인함. 
  6. Schoon, Ben (2024년 8월 16일). “Google opens access to Imagen 3, its latest model for AI image generation”. 《9to5Google》 (미국 영어). 2024년 8월 18일에 원본 문서에서 보존된 문서. 2025년 3월 18일에 확인함. 
  7. Christian Rowlands (2025년 2월 26일). “Some of the most realistic AI images you'll see were created with this free tool”. 《TechRadar》 (영어). 2025년 3월 18일에 확인함. 
  8. Kyle Wiggers (2025년 5월 20일). “Imagen 4 is Google’s newest AI image generator”. 《techcrunch.com》 (영어). 2025년 3월 18일에 확인함. 

외부 링크

[편집]