오프AI의 챗GPT는 세상에 나타나면서 ‘Dall-e 2’라는 이름의 이미지 생성을 전문으로 하는 기계학습 형제와 함께 태어났다.
즉, 미국 스타트업 오픈AI가 개발한 인공지능 대화형 챗봇 ‘챗GPT(Chat GPT)’와 같이 세상에 나온 것이 DALL-E와 DALL-E 2이다. 이는 오픈AI가 개발한 자연어 서술로부터 이미지를 생성하는 기계 학습 모델이다.
DALL-E는 2021년 1월 블로그 게시물에서 오픈AI에 의해 공개되었다. 이미지 생성을 위해 개조된 GPT-3 버전을 사용한다. 곧이어 2022년 4월, 오픈AI는 DALL-E 2를 발표하였고 이는 콘셉트, 속성, 스타일을 합칠 수 있는 더 높은 해상도의 더 사실적인 이미지를 생성하기 위해 설계된 후속작이다.
오픈AI는 DALL-E와 DALL-E 2 모델 어느 쪽에서도 소스 코드를 공개하지 않았다. 그렇지만 한정적으로 선별된 샘플 프롬프트의 출력물은 오픈AI의 웹사이트에서 이용이 가능했었다. 특히, DALL-E 2는 2022년 7월 20일에 100만 명의 대기자들에게 먼저 초대권을 전달했었다. 베타 버전 단계에서 도덕성과 안전에 관한 염려로 인해, 선별된 사용자들 한하여만 전달하였던 것이다. 이로 인해 초대권을 받지 못한 자들은 연구 프리뷰로의 접근이 제한되기도 했었다.
그럼에도 불구하고 적은 양의 데이터로 트레이닝 된 여러 오픈 소스 모방품들이 다른 실체들에 의해 공개되었다. ‘Dall-e’ 라는 명칭은 픽사의 애니메이션 로봇 캐릭터 월-E와 스페인의 현실주의 화가 살바도르 달리의 이름의 혼성어 이다.(https://ko.wikipedia.org/wiki/DALL-E 재인용)
여기서 잠시, 독자 여러분들도 알다시피 ‘챗GPT(Chat GPT)’는 출시 40일 만에 하 루 사용자 1천만 명을 돌파하며 당시 국내에서도 폭발적인 관심과 함께 전 언론에서 종일 방송을 할 정도였었다.
챗GPT는 인터넷에 올라온 방대한 양의 정보를 학습해 사람이 쓴 것과 같은 글을 만들어내는 기계학습 모델로서, 출시 당시에는 2021년까지의 정보를 학습했기 때문에 시사나 현재 시점과 같은 질문에서는 ‘현재의 정보’는 알려줄 수 없다는 메시지가 뜨기도 했었다(https://www.bbc.com/korean/news-64509969재인용).
2023년 현재의 오픈AI와 DALL-E는 상당한 데이터를 축적하면서 최근 업그레이드 버전이 출시되는 가운데 또 한번 우리들을 놀라게 할 것으로 보인다.
크리에이티브나 이미지 같은 분야를 다루는 그림을 그리는 화가, 디자이너, UI.UX 전문가 등 소위 시각적인 아트 비즈니스를 메인으로 하는 아티스트들이 또 한번 관심을 모으고 있다. 놀라운 기술의 진화에 한층 덧대어 Dall-e 3 버전이 나왔기 때문이다.
그런데 여기서 Dall-e 3버전을 말하기 전에 ‘미드저니(Midjourney)’라는 이름을 거론하지 않을 수가 없다. 왜냐하면 미드저니는 DALL-E와 DALL-E 2 이후에 나타난 아트 비즈니스를 전문으로 하는 전문가용 이미지를 생성하는 생성형 인공지능 프로그램이기 때문이다.
미드저니는 사용자가 제공하는 자연어 설명, 즉 ‘프롬프트’를 기반으로 이미지를 생성하는 프로그램이다. 샌프란시스코에 기반을 둔 독립 연구소인 미드저니 Inc.에 의해 만들어졌고 호스팅 되고 있다. 미드저니는 OpenAI의 DALL-E와 Stable Diffusion와 같은 다른 인공지능 이미지 생성 프로그램들과 유사하게 동작하지만, 그 자체의 독특한 특징과 능력을 가지고 있다.
특히, 미드저니의 ‘프롬프트’는 미드저니가 이미지를 생성하는데 필요한 입력을 말한다. 사용자가 ‘프롬프트’를 작성하면, 미드저니는 그 프롬프트를 분석하고 해당 프롬프트에 따라 이미지를 생성한다. 예를 들어, ‘해질 무렵의 장미색 하늘 아래 연인이 손을 잡고 걷는 모습’이라는 프롬프트를 작성하면, 미드저니는 이 설명에 따라 아름다운 이미지를 생성하게 된다.
예시) ‘Lovers walking hand in hand under a rose-colored sky at sunset’을 입력할 경우
위의 이미지가 프롬프트의 입력을 통해 나타나는 것처럼, 미드저니는 이렇게 사용자가 특정 시나리오나 개념을 시각적으로 표현하고자 할 때 사용된다. 이미지가 필요한 다양한 상황, 예를 들어 디지털 아트를 만들거나, 스토리텔링을 위한 시각 자료를 생성하거나, 심지어는 개인적인 표현 수단으로 사용될 수도 있다.
이렇게 미드저니는 단순한 이미지 생성 도구를 넘어, 창조적 표현의 새로운 차원을 열어주는 도구로서의 역할을 한다. 사용자의 상상력과 창조력을 결합하여, 미드저니는 이전에는 불가능했던 유형의 아트워크를 만들어낼 수 있게 해주는 인공지능 프로그램이다.
특히 미드저니는 OpenAI의 DALL-E와 Stable Diffusion와 같은 다른 인공지능 이미지 생성 도구들과 유사하게 동작하지만, 그 자체의 독특한 특징과 능력을 가지고 있다.
잠깐 부연설명을 덧붙이면, 미드저니의 가장 독특한 특징 중 하나는 사용자가 제공한 프롬프트를 기반으로 이미지를 생성한다는 것이다. 사용자가 텍스트로 자신의 아이디어를 표현하면, 미드저니가 그 아이디어를 시각적으로 표현하는 이미지를 생성한다. 이렇게 프롬프트를 기반으로 이미지를 생성하는 기능은 미드저니를 이용하여 다양하고 창조적인 아트워크를 생성 하는 데에 큰 잠재력을 제공하고 있다.
그리고 미드저니는 자연어 처리(Natural Language Processing, NLP) 기술을 활용하여 프롬프트를 깊게 이해한다. 이는 프롬프트에 숨겨진 의미를 잘 파악하고, 그에 따라 더욱 정확한 이미지를 생성할 수 있게 해준다고 느낄 수 있다. 이렇게 NLP 기술을 활용하는 것은 미드저니가 사용자의 의도와 가장 부합하는 이미지를 생성하는 데 큰 도움을 준다고 볼 수 있다.
또한 미드저니는 사용자가 생성한 이미지를 계속해서 개선하고 반복적으로 생성할 수 있는 기능을 제공한다. 이를 통해 사용자가 자신의 아이디어를 계속해서 시각화하고, 그 결과를 바탕으로 아이디어를 개선하고 발전시킬 수 있도록 큰 도움을 준다.
이러한 특징으로 인해, 미드저니는 다른 인공지능 이미지 생성 도구들과 비교할 때 돋보인다는 것을 알 수 있다. 실제로 현장에서는 사용자가 창조성을 극대화하고, 자신의 아이디어를 더욱 효과적으로 표현하고 공유할 수 있게 되는 창조적 도구로 여겨지고 있다. (https: //wikidocs.net/204665 재인용)
실제로 필자 역시 몇몇 작업들을 시도 해 보았을 때 나쁘지 않는 결과들을 얻을 수 있었다.
Dall-e 2 이후에 유사한 인공지능 프로그램 미드저니가 소위 전문가들 사이에서는 입 소문이 나고 있다. 너도 나도 디스코드에 의한 미드저니를 활용해 왔지만, 최근에 이미지 생성형 인공지능 프로그램인 Dall-e 3가 출시되면서 두 인공지능 프로그램들에서 어떤 차이들이 있는지 등을 짚어보는 것은 당연할 것이다.
실제 아트 비즈니스를 하는 전문가들에게 있어서 어떤 부분에서 시각적인 기법 차이가 나타나는지, 민감함과 컨셉과 부합하는지 등은 중요하기 때문이다.
우선, DALL-E 2는 사진처럼 사실적인 시각적 출력을 원하는 사용자에게 적합하다.
간단한 프롬프트를 통해 고품질 이미지를 얻거나 기존 이미지를 편집하려는 경우 DALL-E 2를 사용하면 된다. DALL-E 2는 온라인 이미지 생성기( AI )이기 때문에 별도로 설치가 필요하지 않다. 공식 웹 사이트를 방문하여 프롬프트에 입력만 하면 된다.
또 다른 장점은 이미지 편집 기능인데, DALL-E 2에 업로드하여 원하는 이미지를 변경할 수 있다. 예를 들어, 반려동물의 사진을 업로드하여 다양한 색상으로 이미지를 얻을 수 있기 때문이다. 그리고 DALL-E 2에는 히스토리 탭에서 이전 결과물과 좋아하는 결과물을 볼 수도 있다. 이전 아트워크에 쉽게 액세스하고 싶은 사용자라면 이 기능이 마음에 들 것이다.
DALL-E 2는 크레딧 플랜과 함께 작동하는 AI 이미지 생성기로서 원하는 결과물을 얻으려면 크레딧을 사용해야 한다. 크레딧 가격이 고정되어 있어 115크레딧 당 15달러를 지불해야 한다. 아마도 원하는 결과물을 얻으려면 12~15 크레딧을 사용해야 할 것이다.
앞에서 언급된 내용에 덧붙여 미드저니와 DALL-E 2와 차이를 알아보자면, 미드저니의 가장 큰 장점은 어떤 스타일의 아트웍도 제작할 수 있다는 점이다. 미래지향적이거나 르네상스풍의 결과물을 만들고 싶다면 미드저니를 사용할 수 있다.
또 다른 장점은 Discord와 통합되어 웹 애플리케이션, 데스크톱 애플리케이션, 모바일 애플리케이션으로 사용할 수 있다. 즉, 모든 운영체제나 모바일 기기에서 미드저니를 사용할 수 있다는 말이다.
지속적으로 업데이트와 개선을 한다는 것도 장점이다. 예를 들어, 미드저니 ver.5는 더 높은 해상도의 결과물을 생성할 수 있으며 손과 손가락의 해부학적 구조를 사실적으로 그릴 수도 있다. 이전 버전보다 프롬프트를 더 잘 읽고 이해할 수 있으며, 복잡한 UI와 설정에 어려움을 겪지 않고도 원하는 결과물을 얻을 수 있다.
그리고 미드저니는 신규 사용자에게 0.4시간의 이미지/아트웍 생성 기회를 제공하므로 프리미엄 요금제에 가입하기 전에 사용해 볼 수도 있다. 체험판에서는 약 10개의 이미지를 생성할 수 있는데, 세 가지 구독 플랜이 있다.
필자의 기억이 맞다면, 미드저니는 한달 가격이 한화로 9,500~10,000원으로 가입이 가능하다. (https://textcortex.com/ko/post/midjourney-vs-dall-e-2 재인용)
결과적으로 미드저니와 DALL-E 2 모두 원하는 시각적 결과물을 얻을 수 있다. 그러나 두 이미지 생성AI 사이에는 사용자 경험에 영향을 미치는 주요 차이점이 있다.
두 가지 모두 텍스트 프롬프트를 사용하여 시각적 출력을 생성하도록 개발되어 있다. 이 점에서 성능은 비슷하다. 텍스트 입력만을 사용하여 시각적 출력을 얻을 수 있는 것 외에 또 다른 유사점은 브라우저에서 사용할 수 있다는 점이 있다. DALL-E 2는 웹/ 앱으로 사용하도록 설계되었지만, Midjourney는 브라우저에서도 사용할 수 있다.
두 AI 이미지 생성기 간의 또 다른 유사점은 이미지 입력을 지원한다는 점이다. AI 이미지 생성기를 사용해 기존 이미지를 편집, 수정 및 향상 시킬 수도 있다. 그래서 기능들이 거의 비슷한 듯 아닌 듯 모호하면서 유사하다.
AI 이미지 생성기를 선택할 때 고려해야 할 몇 가지 주요 차이점 중 하나는 미드저니가 DALL-E 2보다 이용 가격이 더 저렴하다는 것이다.
아울러 미드저니는 모바일, 윈도우, 리눅스, 맥 등 다양한 플랫폼에서 이용할 수 있다. DALL-E 2는 거의 사실적인 이미지를 생성하는 반면 미드저니는 훨씬 더 아트웍 느낌이 나는 스타일로 제작을 한다. 즉, 사실적인 결과물을 원한다면 DALL-E 2가 최고의 선택이 될 것이고 좀 더 창의적이고 시각적으로 자극적인 결과물을 원한다면 Midjourney V5가 적합하다고 볼 수 있다. Midjourney V5로 사실적인 결과물을 얻으려면 프롬프트에서 ‘포토리얼리스틱’ 및 ‘하이퍼리얼리스틱’과 같은 매개 변수를 사용하면 된다.
그렇지만 우리도 잘 알다시피 ‘모방이 곧 창조다’라는 말을 기반으로 한 것이 바로 이미지 생성기라는 인공지능 프로그램이다. 축적된 데이터가 없다면, 기계는 기존의 그림 이미지를 모방할 수 있는 역량을 얼마나 만들어 낼 수 있을지 장담할 수 없다. 따라서 지나친 의존은 아트 비즈니스를 메인으로 하는 사용자들의 상상력을 오히려 저해할 수도 있지 않을까 의문이 든다.
여기에 저작권리 문제나 이미지 정보에 대한 윤리적인 측면들도 분명히 있으리라 여겨진다. 이는 기술이 진화하는 가운데, 인간이 느끼는 이성적인 판단에 영향을 받을까 의심되기 때문이다.
이미지 생성형 AI는 미드저니(Midjourney), 스테이블 디퓨전(Stable Diffusion), 달리(DALL·E), 파이어 플라이(Firefly) 외에도 다양한 모델들이 속속 출시되고 있다. 업그레이드 될 때마다 놀랄 만큼 보완되고 향상된 모습을 보인다.
언어 생성형 AI인 챗GPT가 발표된 2022년 11월 이후, 지금까지 불과 약 반 년의 기간이 흘렀다. 이미지 생성형 AI를 포함한 다양한 AI 도구의 발전은 지난 약 10년치의 AI 기술의 변화를 뛰어넘는 충격적인 수준이라 할 수 있다. 매일같이 새로운 기능이 추가되고 새 솔루션이 나오고 있다.
특히 이미지와 관련한 SW를 늘 선도적으로 개발해온 어도비는 포토샵과 일러스트레이터에 통합될 생성형 AI 모델군인 파이어 플라이의 새로운 기능을 발표했다(생성형 채우기 기능, 2023.5.23, 어도비). 프롬프트를 이용해 텍스트 명령으로 이미지를 추가하거나 변형하는 기능으로, 마치 기존 포토샵과 이미지 생성형 AI 인 미드저니가 합쳐진 것과 같은 모양이다.
그리고 우리가 눈치 못 채는 사이에 생성형 AI가 만들어 낸 이미지들은 점유율을 높여가고 있다. 시 공모전에서 대상을 받거나 소설, 시나리오 영역 등 무언가를 창작하는 영역에서 인간을 넘어선 탁월함을 보인다는 증거가 많은 기사를 통해 나타나고 있다. 이처럼 콘텐츠의 생산 외에도 인간과 교감을 나누는 역할로서의 가능성을 보인다.
최근에는 챗GPT가 LEAS(감정 인식 수준 척도) 테스트에서 인간의 평균보다 높은 점수를 획득했다는 소식이 있다. 반면에 불안한 소식도 있다.
2023년 3월, ‘골드만삭스’는 생성형 AI가 일자리의 4분의 1을 대체할 수도 있다는 보고서를 발표했기 때문이다. 특히 유럽연합(EU)과 미국에서 일자리 3억 개가 사라질 수 있다고 지적했다는 것에서 ‘창의성이란 무엇인가’에 대한 정의도, 디자인. 아트 비지니스에 대한 정의도 전반적으로 재검토가 필요한 시점으로 보인다.
오랜 시간 노하우로 실험하고 익혀야 했던 마케팅의 최전선과 고객을 직접 만나야 하는 디자인 산업에 있어서 가정해보자. AI와 자동화가 대신하면 디자인 마케팅의 장벽이 낮아져 누구나 쉽게 디자인할 수 있게 될 것이다.
지금까지의 디자이너들은 표준화된 대량 생산품을 디자인해 왔지만, 만약에 非디자이너도 AI를 이용해 디자인하고 개인화된 소량 맞춤 생산, 유통을 실현하는 시대가 온다면 기존 디자이너들이 설 땅은 어디에 있을까?
아마도 상당 부분이 AI를 이용하는 非디자이너와 기계로 대체될 것이다. 우리나라는 신기술에 대해 높은 수용성을 가져 AI 도입과 자동화와 무인화도 빨리 이루어지고 있다. 이 가운데 로봇 도입률은 세계 1위이다. 아마도 각 기업의 노사문제 등과 직결된 부분이라 더 더욱 빠른 속도로 활용하리라 여겨지기도 한다. (인공지능 기술은 디자인 분야에 어떤 영향을 미치게 될까? – 윤성원 2023.06.02 재인용)
세계적인 스포츠 의류 브랜드 언더아머는’제너레이티브 디자인'(Generative Design)과 3D프린팅 기술을 적용, ‘UA아키텍트’라는 신개념 트레이닝 화를 이미 개발하고 있다. 아트 비즈니스 전문가들이나 디자이너들은 기업탓, 사회탓만 할 것은 아니지 않을까 싶다.
스스로 이미지 생성AI의 속성과 기능들을 응용한 전략이나 기획. 그리고 고객들의 취향이나 라이프 스타일을 인지하여 한발 앞서 반영해야만 할 것이다. 기술의 진화를 빠르게 습득해야 하고 익숙해야만 좀 더 깊이 있는 디자인 마케팅을 펼쳐갈 수 있는 기회가 될 수 있기 때문이다.
AI 이미지 생성AI를 통해서 무엇을 할 수 있을지도 고민해야 할 것이고 혹은 AI를 이용해 아트 비지니스 과정을 자동화할 수도 있을 것이다.
최근에 AI에게 모든 걸 맡긴다면 디자이너나 아트 비즈니스 전문가들은 무엇을 해야 할지 걱정스럽다는 말들을 많이 듣는다. 그러나 이는 이미지 생성AI 즉 이미지 생성 인공지능 프로그램을 이해하지 못해서 나온 말이다.
직접 체험하며 활용해봄으로써 나타나는 문제들과 그에 따른 보완점, 아울러 이 AI를 통해서 얻을 수 있는 기회 등 오히려 할 수 있는 일은 더욱 많으리라 여겨진다.
막연한 불안함 보다는 직접 부딪혀 보고 느낄 수 있었으면 한다.
세상은 늘 변해왔다. 특히 스마트폰이 세상에 나타난 이후 정말 많은 것이 변했다.
그것은 마이크로 소프트가 윈도우OS를 세상에 내놓았을 때도 마찬가지였다. 인간은 끊임없이 호기심을 자극하는 이성적인 진화를 추구한다. 그리고 적응력과 응용능력 역시도 매우 빠르다는 것을 잊지 않았으면 한다.
Gil Park님의 브런치에 게재된 글을 모비인사이드가 한 번 더 소개합니다.