스페셜 컨텐츠
소리로 진짜 이미지 만드는 AI 기술

한이룸
이커머스
2024. 8. 12.
*한이룸 네트워크 채널에 계신 분들을 대상으로 해외 아티클 번역해서 제공해드리고 있습니다.
배경
AI가 아래와 같은 강아지 이미지를 생성하는 것을 본 적이 있으시죠.

소리가 나는 이미지: 하나의 캔버스에 이미지와 사운드 구성하기 - https://arxiv.org/pdf/2405.12221
2024년 5월, 미시간 대학교의 세 명의 연구원이 "소리가 나는 이미지."라는 제목의 논문을 발표했습니다: 하나의 캔버스에 이미지와 소리 구성하기"라는 제목의 논문을 발표했습니다.
이 게시물에서는 다음 내용을 설명합니다.
'소리가 나는 이미지'를 생성한다는 것이 무엇을 의미하는지, 그리고 이것이 인간의 이전 작업과 어떻게 연결되는지 설명합니다.
이 모델이 기술적 수준에서 어떻게 작동하는지 알기 쉽게 설명합니다.
이 백서가 AI가 할 수 있는 일과 해야 하는 일에 대한 우리의 이해에 도전하는 이유
소리가 나는 이미지란 무엇인가요?
이 질문에 답하려면 두 가지 용어를 이해해야 합니다:
파형
스펙트로그램
현실 세계에서 소리는 물체를 진동시켜 음파(시간에 따른 기압의 변화)를 생성함으로써 만들어집니다. 소리가 마이크를 통해 포착되거나 디지털 신디사이저로 생성되면 이 음파를 파형으로 표현할 수 있습니다:

어쿠스틱 노래의 파형. 음악 및 이미지 작성자.
파형은 오디오 녹음과 재생에는 유용하지만, 일반적으로 오디오 데이터를 이용한 음악 분석이나 머신 러닝에는 사용하지 않습니다. 대신 훨씬 더 많은 정보를 제공하는 신호 표현인 스펙트로그램이 사용됩니다.
어쿠스틱 노래의 멜 스펙트로그램. 음악 및 이미지 작성자.
스펙트로그램은 시간에 따라 소리에서 어떤 주파수가 더 많이 또는 덜 두드러지는지 알려줍니다. 하지만 이 글에서 주목해야 할 점은 스펙트로그램은 이미지라는 점입니다. 그리고 이것으로 우리는 완전한 원점에 도달합니다.
위의 강아지 소리와 이미지를 생성하면서 동시에, AI를 통해 스펙트로그램으로 변환하면 강아지처럼 보이는 소리를 만들어 냅니다.
즉, 이 AI의 출력물은 소리와 이미지가 동시에 존재합니다.
AI는 어떻게 이러한 예술 작품을 생성할까요?
이제 소리가 나는 이미지가 무엇을 의미하는지 이해했더라도 어떻게 이런 일이 가능한지 궁금합니다. AI는 어떤 소리가 어떤 이미지를 만들어낼지 어떻게 알 수 있을까요?

"소리가 나는 이미지"에서 생성된 코기 소리의 파형. 작성자 이미지.
먼저 한 가지 기본 개념을 이해해야 합니다: 확산 모델입니다. 확산 모델은 DALL-E 3 또는 Midjourney와 같은 이미지 모델의 기반이 되는 기술입니다. 기본적으로 확산 모델은 사용자 프롬프트를 수학적 표현(임베딩)으로 인코딩한 다음 무작위 노이즈에서 원하는 출력 이미지를 단계별로 생성하는 데 사용됩니다.
확산 모델을 사용하여 이미지를 만드는 워크플로우는 다음과 같습니다.
인공 신경망을 사용하여 프롬프트를 임베딩(숫자 묶음)으로 인코딩합니다.
화이트 노이즈(가우스 노이즈)로 이미지를 초기화합니다.
이미지의 노이즈를 점진적으로 제거합니다. 프롬프트 임베딩을 기반으로 확산 모델은 이미지를 프롬프트 설명에 더 가깝게 만드는 최적의 작은 노이즈 제거 단계를 결정합니다. 이를 노이즈 제거 지침이라고 부르겠습니다.
노이즈가 없는 고품질 이미지가 생성될 때까지 노이즈 제거 단계를 반복합니다.
이미지 확산 모델의 높은 수준의 내부 작동 방식. 작성자 이미지.
연구진은 '소리 나는 이미지'를 생성하기 위해 두 가지 확산 모델을 하나로 결합하는 영리한 기법을 사용했습니다. 확산 모델 중 하나는 텍스트-이미지 모델 (Stable Diffusion)이고, 다른 하나는 텍스트-스펙트로그램 모델 입니다, 다른 하나는 텍스트-스펙트로그램 모델 (Auffusion)입니다. 이러한 각 모델은 임베딩에 인코딩된 자체 프롬프트를 수신하고 자체 노이즈 제거를 할지말지 결정합니다.
그러나 모델이 이미지 노이즈 제거 방법을 결정해야 하기 때문에 여러 개의 서로 다른 노이즈 제거 지침은 문제가 됩니다. 이 논문에서 저자는 두 프롬프트의 노이즈 제거 지침을 평균화하여 모델이 두 프롬프트에 대해 동일하게 최적화하도록 효과적으로 안내함으로써 이 문제를 해결합니다.

"소리가 나는 이미지"의 높은 수준의 내부 작동 방식. 작성자 이미지.
높은 수준에서 보면 결과 이미지에 이미지와 오디오 프롬프트가 모두 똑같이 잘 반영되도록 하는 것이라고 생각할 수 있습니다. 한 가지 단점은 출력물이 항상 두 가지가 혼합되어 모델에서 나오는 모든 사운드나 이미지가 멋지게 보이거나 들리지 않는다는 것입니다. 이러한 내재적 트레이드오프는 모델의 출력 품질을 크게 제한합니다.
이 논문이 AI에 대한 우리의 이해에 도전하는 방법
AI는 단지 인간의 지능을 모방한 것일까요?
AI는 일반적으로 인간의 지능을 모방한 컴퓨터 시스템으로 정의됩니다(예: IMB, TechTarget, Coursera). 이 정의는 판매 예측, 이미지 분류, 텍스트 생성 AI 모델에 적합합니다. 그러나 컴퓨터 시스템은 인간이 역사적으로 해결해 온 작업을 수행하는 경우에 AI가 해결할 수 있다는 내재적인 제한이 있었습니다.
현실 세계에는 지능을 통해 해결할 수 있는 수많은(어쩌면 무한대에 가까운) 문제들이 존재합니다. 인간의 지능은 이러한 문제 중 일부를 해결했지만 대부분은 여전히 미해결 상태로 남아 있습니다. 이러한 미해결 문제 중에는 암 치료, 양자 컴퓨팅, 의식의 본질과 같이 알려진 문제도 있고, 아직 알려지지 않은 문제도 있습니다. 이러한 미해결 문제를 해결하는 것이 목표라면 인간 지능을 모방하는 것은 아주 좋은 전략이 아닐 수 있습니다.

작성자 이미지.
위의 정의에 따르면, 인간의 지능을 모방하지 않고 암 치료법을 발견하는 컴퓨터 시스템은 AI로 보지 않습니다. 이는 사실 너무 비효율적인 사고 방식이죠. 저는 '유일함이란 어떤 것인가'등의 대한 논쟁을 시작하려는 것이 아닙니다. 대신 AI는 인간의 지능을 위한 자동화 도구 그 이상이라는 점을 강조하고 싶습니다. AI는 우리가 존재조차 몰랐던 문제를 해결할 수 있는 잠재력을 가지고 있습니다.
인간의 지능으로 스펙트로그램 아트를 생성할 수 있을까요?

에이펙스 트윈의 "∆Mᵢ-¹=-α ∑ Dᵢ[η][ ∑ Fjᵢ[η-1]+Fextᵢ [η-¹]]" 속 외계인 얼굴 스크린샷입니다. 동영상 링크.
또 다른 예로 캐나다 뮤지션 베네치안 스네어스의 앨범 '내 고양이에 관한 노래'에 수록된 트랙 'Look'을 들 수 있습니다.

베네치안 스네어의 "Look"에 인코딩된 고양이 이미지 스크린샷. 동영상 링크.
두 예시 모두 인간이 이미지를 파형으로 인코딩할 수 있다는 것을 보여주지만, '소리 나는 이미지'가 할 수 있는 것과는 분명한 차이가 있습니다.
"소리가 나는 이미지"는 인간의 스펙트로그램 아트와 어떻게 다른가요?
위의 인간 스펙트로그램 아트의 예를 들어보면 소음처럼 들린다는 것을 알 수 있습니다. 외계인 얼굴의 경우, 이것은 적절한 음악적 밑줄이 될 수 있습니다. 하지만 고양이의 예를 들어보면 소리와 스펙트로그램 이미지 사이에는 의도적인 관계가 없는 것 같습니다. 인간 작곡가들은 스펙트로그램으로 변환했을 때 특정 사물처럼 보이는 파형을 생성할 수 있었습니다. 하지만 제가 아는 한, 미리 정의된 기준에 따라 소리와 이미지가 일치하는 예시를 만들어낸 인간은 없었습니다.
'소리 나는 이미지'는 고양이처럼 들리고 고양이처럼 보이는 오디오를 생성할 수 있습니다. 또한 우주선처럼 들리거나 돌고래처럼 보이는 오디오를 생성할 수도 있습니다. 오디오 신호의 소리와 이미지 표현 사이에 의도적인 연관성을 생성할 수 있습니다. 이 점에서 AI는 인간이 아닌 지능을 보여 줍니다.
"소리가 나는 이미지"에는 기존의 사례가 없습니다. 그것이 바로 아름다운 이유입니다.
최근 몇 년 동안 AI는 대부분 자동화를 통해 경제적 성과를 높일 수 있는 생산성 도구로 묘사되어 왔습니다. 이는 어느 정도 바람직한 방향이라는 데 대부분의 사람들이 동의하지만, 이러한 미래 전망에 위협을 느끼는 사람들도 있습니다. AI가 인간의 일을 계속 빼앗아간다면 결국 우리가 좋아하는 일을 대체하게 될 수도 있기 때문입니다. 따라서 우리의 삶은 생산성은 높아지지만 의미는 줄어들 수 있습니다.
"이미지 그 사운드"는 이러한 관점과 대조되는 아름다운 AI 예술의 대표적인 예입니다. 이 작품은 경제적인 문제가 아니라 호기심과 창의성에 의해 만들어졌습니다. 이 기술이 경제적으로 활용될 가능성은 낮지만 결코 없다고 단언할 수는 없습니다.
제가 AI에 대해 이야기를 나눈 사람들 중에서 예술가들은 AI에 대해 가장 부정적입니다. 이는 독일 GEMA의 최근 연구에 따르면 음악가의 60% 이상이 "AI 사용의 위험성이 잠재적 기회보다 크다고 생각"하며, 11%만이 "기회가 위험성보다 크다고 생각한다"고 답한 것이 이를 뒷받침하고 있습니다.
이 논문과 유사한 연구가 더 많이 이루어진다면 예술가들이 AI가 더 아름다운 예술을 세상에 가져올 수 있는 잠재력을 가지고 있으며, 이것이 인간 창작자의 희생으로 이루어질 필요는 없다는 것을 이해하는 데 도움이 될 수 있을 것입니다.
예술을 위한 AI의 다른 창의적인 활용
아름다운 예술을 창조할 수 있는 잠재력을 가진 AI의 활용 사례는 '이미지 댓 사운드'가 처음이 아닙니다. 이 섹션에서는 여러분에게 영감을 주고 AI에 대해 다르게 생각하게 만드는 몇 가지 다른 접근 방식을 소개하고자 합니다.
예술 복원

AI로 재구성한 아마존 전투의 모자이크. 이 논문에서 가져온 것.
AI는 손상된 작품을 정밀하게 수리하여 예술품을 복원하고 역사적인 작품을 더 오래 보존할 수 있도록 돕습니다. 이러한 기술과 창의성의 결합은 우리의 예술적 유산을 미래 세대를 위해 살아 숨 쉬게 합니다. 자세히 보기.
그림에 생동감 불어넣기
모나리자가 파파라치에게 랩을 하는 YouTube 동영상(AI 생성).
AI는 사진에 애니메이션을 적용하여 자연스러운 움직임과 립싱크로 사실적인 동영상을 만들 수 있습니다. 이를 통해 모나리자와 같은 역사적 인물이나 예술 작품이 움직이고 말하거나 랩을 할 수 있습니다. 이 기술은 딥페이크의 맥락에서는 확실히 위험하지만, 역사적 초상화에 적용하면 재미있거나 의미 있는 예술 작품을 만들 수 있습니다. 자세히 보기.
모노 레코딩을 스테레오로 전환하기
AI는 모노 믹스를 스테레오 믹스로 변환하여 오래된 레코딩을 향상시킬 수 있는 잠재력을 가지고 있습니다. 이를 위한 고전적인 알고리즘 접근 방식이 있지만, AI는 인공 스테레오 믹스를 점점 더 사실적인 사운드로 만들 수 있을 것으로 기대됩니다. 여기 및 여기에서 자세히 알아보세요.
결론
이미지 댓 사운드는 제가 2024년에 가장 좋아하는 논문 중 하나입니다.
이 논문은 고급 AI 훈련 기술을 사용하여 새로운 시청각 예술 형식을 만들어내는 순수 예술적 결과를 달성합니다. 가장 흥미로운 점은 이 예술 형식이 현재 인간의 능력 밖에서 존재한다는 것입니다.
이 논문에서 우리는 AI가 단순히 인간의 행동을 모방하는 자동화 도구에 불과하지 않다는 것을 알 수 있습니다.
오히려 AI는 기존 예술을 향상시키거나 완전히 새로운 작품과 예술 형식을 창조함으로써 우리 삶의 미적 경험을 풍요롭게 할 수 있습니다. 우리는 이제 막 AI 혁명의 시작을 보기 시작했으며, 그 (예술적) 결과를 구체화하고 경험하고 싶습니다.




