이 소름끼치는 아바타를 만들었으니 다시는 카메라 앞에 설 수 없을 것 같아요

Lucia Stazio10월 9, 2024

9 3 minutes read

Read Time:4 Minute, 26 Second

저는 수년간 경력을 쌓으면서 수천 시간의 비디오를 녹화했는데, 여기에는 많은 준비와 노력, 에너지가 필요하다고 말씀드릴 수 있습니다. 또한 HeyGen과 같은 AI 아바타 비디오 생성기를 사용하는 경우 위의 사항이 거의 필요하지 않으며 그로 인해 겁이 납니다.

고품질 생성 비디오의 출현으로 이러한 AI 비디오 아바타가 도처에 나타나고 있습니다. 나는 카메라 앞에 서는 것을 좋아하고 텔레비전과 소셜 비디오에 출연하는 것을 좋아하기 때문에 많은 관심을 기울이지 않았습니다. 하지만 모든 사람이 스포트라이트를 받는 것을 좋아하지 않고 기꺼이 아바타에게 작업을 넘겨주려 하지 않는다는 것을 알고 있습니다. 그리고 HeyGen 아바타의 명백한 품질을 엿봤을 때 나는 그것을 시도해 볼 만큼 흥미를 느꼈습니다. 이제 솔직히 그러지 않았더라면 좋았을 텐데요.

모바일 또는 데스크톱 장치에서 사용할 수 있는 HeyGen은 제공한 스크립트에 따라 카메라와 대화할 수 있는 AI 아바타를 생성하기 위한 간단하고 강력한 플랫폼입니다. 이는 비디오 프리젠테이션, 소셜 미디어, 대화형 아바타, 교육 비디오 및 본질적으로 매력적인 사람의 얼굴이 주제나 정보 판매에 도움이 될 수 있는 모든 것에 유용합니다.

HeyGen을 사용하면 상대적으로 정적인 비디오에 나타날 수 있거나 다른 비디오가 움직이는 디지털 트윈을 만들 수 있습니다. 내 경험을 바탕으로 “스틸 사진” 옵션을 선택했습니다.

또 다른 자아 설정하기

(이미지 출처: 미래)

아바타를 만드는 데는 몇 가지 규칙이 있으며, 제가 한 것처럼 그 규칙을 따르면 디지털 트윈의 품질이 약간 좋지 않을 수 있다고 생각합니다.

HeyGen은 전문가용 카메라나 최고의 스마트폰을 사용하여 자신의 비디오를 녹화하는 것으로 프로세스를 시작할 것을 권장합니다. 단, 비디오는 최소 1080p여야 합니다. 저처럼 무료 버전을 사용하시면 최종 영상이 720p에 불과하다는 것을 아실 겁니다. 나중에 업그레이드하면 Full HD 비디오 아바타 제작을 시작할 수 있습니다(가격 구조에 대해서는 나중에 자세히 설명).

“아름다운 배경” 사용, 강한 그림자 및 배경 소음 방지 등 다른 권장 사항과 디지털 트윈 버전 판매의 핵심이 되는 사항도 있습니다. HeyGen은 나에게 똑바로 보라고 요청했습니다(그러나 소름 끼치는 방식은 아닌 것 같습니다). ) 카메라 앞에서 가슴 높이 아래에서 일반적인 동작(해석 가능)을 하고 문장 사이에 잠시 멈춥니다. 마지막 부분은 실제로 실제 비디오를 만드는 데 좋은 팁입니다. 나는 의식의 흐름대로 말하고, 잠시 멈추고 창조하는 것을 잊어버리는 습관이 있습니다. 편집을 위한 명백한 사운드 바이트.

그러나 여기에서 일시 중지는 적어도 교육 비디오에서 말하는 내용을 의미하지 않습니다. 말을 할 때와 하지 않을 때 쌍둥이의 얼굴과 입을 관리하는 법을 배우는 것 같습니다.

어쨌든 2분 정도만 카메라에 대고 싶은 말은 뭐든지 할 수 있었어요. 더 많은 동영상이 아바타가 포함된 새 동영상의 품질을 높이는 데 도움이 됩니다.

내가 되기 위한 훈련

(이미지 출처: 미래)

저는 iPhone 16 Pro Max와 조명 몇 개를 설치하고 홈 오피스에서 2분 동안 말도 안 되는 말을 하는 모습을 촬영했습니다. 그 동안 1초 동안 멈춰서 제스쳐가 너무 거칠어지지 않도록 주의했습니다. 맥북에어에 에어드롭한 후 영상을 올렸습니다. 이 시점에서 나는 무료 사용자로서 비디오에 대한 사실상 모든 권리를 HeyGen에 포기한다는 것이 분명해졌습니다. 전혀 최적은 아니지만 기본 계획에 대해 한 달에 24달러를 지불하고 내 이미지에 대한 통제권을 다시 얻을 의향이 없었습니다.

HeyGen 시스템이 비디오를 통합하고 디지털 트윈을 준비하는 데 상당한 시간이 걸렸습니다. 준비가 완료되자 첫 3분짜리 동영상을 만들 수 있었습니다. 유료 고객은 선택한 서비스 수준에 따라 5분 이상의 동영상을 제작할 수 있습니다. 결제를 통해 더 빠른 비디오 처리에 대한 액세스도 허용됩니다.

비디오를 만들기 위해 수직 또는 수평 비디오 형식을 선택했습니다. 훈련 영상을 인물 사진으로 촬영했는데 그건 문제가 되지 않는 것 같았습니다. 또한 최대 2000자를 허용하는 필드에 입력하거나 붙여넣을 수 있는 스크립트를 제공해야 했습니다.

글을 쓰는 직업을 갖고 있는 사람으로서 대본을 고민하다가 마침내 <햄릿>의 짧은 독백을 하게 됐다. 스크립트 길이를 확인한 후 시스템이 작동하여 천천히 첫 번째 HeyGen 디지털 트윈 비디오를 생성했습니다. 대본 끝에 실수로 공백을 남겨두었나 봐요. 그 중 절반 정도가 조용히 카메라를 위해 싸우는 디지털 자아였거든요. 불안해요.

아무것도 진짜가 아니야

@lanceulanoff
♬ 오리지널 사운드 – Lance Ulanoff

나는 그들이보고있는 비디오가 실제로 내가 아니라는 것을 밝힌 타이트한 TikTok 비디오로 이에 이어졌습니다. 월별 무료 수당에 대한 세 번째이자 마지막 비디오는 내가 농담을 한 비디오였습니다. “조용한 테니스를 쳐 본 적이 있습니까? 일반 테니스와 동일하지만 라켓이 없습니다. 하하하하하하하하하하하!” 짐작하셨겠지만 핵심은 실제로 전달되지 않으며 내 디지털 트윈은 결코 웃지 않고 완전히 유머 없는 방식으로 “웃음”을 전달하기 때문에 그 중 어느 것도 전혀 웃기지 않습니다.

이 모든 영상에서 저는 오디오 품질에 놀랐습니다. 그것은 내 목소리의 본질이지만 내 목소리도 아닙니다. 너무 로봇적이고 감정이 부족해요. 적어도 입으로는 타이밍이 맞았다. 반면에 시각적인 부분은 거의 완벽합니다. 내 디지털 트윈은 나와 비슷하거나 적어도 Tim Cook의 기조 연설 스타일의 손짓을 좋아하는 감정 없는 버전입니다. 공평하게 말하자면 처음 훈련 영상을 녹화할 때 손을 어떻게 해야 할지 몰랐고, 자주 거친 몸짓을 제어하지 않으면 디지털 트윈이 이상하게 보일까 봐 걱정했습니다. 제가 실수를 했습니다. 이 지나치게 통제된 쌍둥이는 가장 이상합니다.

그냥 아니야

AI 버전의 나도 농담을 할 수 있나요? 다소간. #헤이겐 @HeyGen_Official pic.twitter.com/ODke9z67VH2024년 10월 9일

TikTok에서 누군가는 다음과 같이 썼습니다. “아무도 이것을 좋아하지 않습니다. 아무도 이것을 원하지 않습니다.” Threads에 동영상을 게시했을 때 반응은 충격에서 실망까지 다양했습니다. 사람들은 나의 “산만해지는” 손짓을 알아채고 “소름끼친다”고 말하며 이 비디오가 “진실의 죽음”을 표현한다고 걱정했습니다.

하지만 여기에 문제가 있습니다. AI가 생성한 영상이 걱정스럽긴 하지만, 여러분이 적어두거나 복사하여 붙여넣지 않은 내용은 나오지 않습니다. 예, 내 디지털 트윈은 이미 놀랍고 충격적일 정도로 정확하지만 적어도 내 명령을 따르고 있습니다. 문제는 다른 사람이 말하는 2분짜리 좋은 동영상이 있다면 업로드해서 원하는 대로 말하게 할 수 있다는 것입니다. 아마.

HeyGen은 번거롭지 않은 디지털 트윈 비디오 생성기를 효과적으로 제작한 공로를 인정 받았습니다. 완벽함과는 거리가 멀고 사용자에게 감정(정확한 것은 “재미있다”, “슬프다”, “화난다”를 찾는다)과 더 다양한 얼굴 표정(예: 한두 번 정도 웃는 것이 좋을 것입니다.) 그때까지 이 디지털 트윈은 우리의 감정 없는 복제물이 되어 비디오에 대한 우리의 입찰을 기다리고 있을 것입니다.