INHOUSE MEDIA: как мы цифровых аватаров создавали
Искусственный интеллект (ИИ) — мегатренд и буквально мастхэв если не для всех, то почти для всех контент-команд. При этом, как бы мы ни гнались за трендами, тестировать ИИ нужно ответственно и экологично. Заручившись этими принципами, в апреле 2024 года команда INHOUSE MEDIA начала готовиться к созданию цифровых аватаров для «Страны Девелопмент». Милана Шабаева, продюсер INHOUSE MEDIA рассказала, как происходил этот процесс.
В апреле 2024 года к нам пришла Алена Пияшева — SMM-менеджер «Страны». Её интересовал конкретный вопрос: «Запускали ли мы цифровых аватаров?». Подобных кейсов у нас не было, о чём мы честно предупредили, но решительно настроились вписаться в этот эксперимент. До этого мы себе представляли именно цифровых персонажей, которые ведут свой блог в соцсетях (запрещённых и не только) и становятся амбассадорами больших брендов. Но аватары могут быть другими и решать совершенно разные задачи.
Цифровой аватар — это виртуальная 3D-модель человека или персонажа в Интернете. Аватар можно использовать для взаимодействия на различных онлайн-платформах и приложениях. Своих аватаров мы размещали в соцсетях.
Наша команда занялась оптимизацией бюджета и созданием коротких роликов с экспертной информацией. Результат превзошёл ожидания, мы добились весомых успехов: 10 аватаров и 293 тыс. 901 просмотр во всех соцсетях.
Сколько нам это стоило? Деньги, люди, время.
Весь проект обошёлся нам в 240 тыс. 546 ₽. В эту сумму вошли:
После консультации со Стасом, мы начали разработку ТЗ для правильного монтажа роликов. Спустя время, именно их мы загружали в HeyGen — нейросеть для обучения аватара вербальной и невербальной коммуникации со зрителем.
Была задача ускорить и финансово оптимизировать экспертный контент. Так как найти спикеров, собрать съёмочную команду, провести съёмку — долго и дорого. Хотелось найти вариант, как делать экспертный контент и так сильно не запариваться. Как вариант рассматривали: рисованных персонажей, анимацию или живых людей.
В HeyGen необходимо было загрузить чистовой ролик длинной до 5 минут. То есть видео не должно было быть склеенным, допускалось использование только одного плана — анфаса, разрешение и частота воспроизведения звука — исключительно высокого качества. Речь в ролике должна была быть чёткой и совпадать с артикуляцией губ аватара.
Многовато требований на этапе подготовки… Но результат обещал быть впечатляющим! Получившееся ТЗ мы отдали съёмочной команде из Тюмени.
Съёмку и монтаж осуществляли тюменские ребята из видеопродакшна BISMUTH.
29 мая мы опубликовали первый аватар — Анастасию. Скажем прямо, достаточно волновались перед публикацией: боялись, что зрители сразу распознают «искусственного человека». Но цифровая версия девушки смотрелась хорошо и с первого взгляда даже не было заметно, что есть погрешности в артикуляции и жестикуляции. А опрос коллег и знакомых показал, что вообще никто разницы не заметил:
Выше уже написали, что важно было правильно отснять и сделать качественный чистовой монтаж. Чтобы ИИ смог повторить пластику, а липсинк — синхронизация губ со звуком — выглядел качественно, надо было снять на видео людей определённым образом.
Так как мы изначально планировали выпускать ролики в вертикальном формате, то сразу же в таком разрешении 1080×1920 загружали и чистовые ролики. Необходимо было соблюдать следующие критерии:
Ещё надо было подружиться с интерфейсом HeyGen, чтобы понять, как он работает, какие опции на что влияют и так далее. С этим в нашей команде разбирались все внутри тестового оплаченного аккаунта. Но впоследствии полностью загружала сценарии и обучала аватара произношению наш дизайнер Ульяна.
Чтобы машина обучалась жестам, голосу и мимике настоящего человека, этому человеку необходимо было сначала самому загрузить готовый чистовой ролик, пройти проверку (верификацию) и подтвердить, что он загружает ролик со своим изображением.
Первый ролик с Настей получился без дополнений к видеоряду. Кроме субтитров мы ничего не добавляли. Дальше начали э Источник: www.sostav.ru