Воронеж ясно +15°
USD
92.51
EUR
98.91
Предложить новость
Прямой эфир
09:44 02.12.2020
6 мин
0
2064

Вперёд в будущее: любимец женщин Жорж Милославский возвращается на экраны

09:44 02.12.2020
6 мин
0
2064

В этом году лицом новогодней рекламной кампании Сбера станет самый первый бренд-амбассадор банка — Жорж Милославский. Персонаж, которого сыграл всенародно любимый актёр театра и кино Леонид Куравлёв в фильме «Иван Васильевич меняет профессию», ещё в 1973 году призывал: «Храните деньги в сберегательной кассе».

Оказавшисьв 2020 году, герой узнаёт, что теперь Сбер — больше чем банк, не просто финансовая компания, а технологический гигант. А как раз одна из компаний экосистемы Сбера и сделала возращение любимого персонажа возможным.

Помимо воссоздания внешности киногероя с помощью технологий искусственного интеллекта, создателям ролика необходимо было синтезировать его голос, который является важной составляющей образа героя. Эту нестандартную задачу решали специалисты Группы ЦРТ, входящей в экосистему Сбера.

Обычно для качественного синтеза речи с помощью технологии TTS (text-to-speech) требуется не менее 20 часов речи диктора, записанной в студии по определённому текстовому шаблону. В случае с голосом Леонида Куравлёва задача требовала нестандартного подхода.

Во-первых, нужен был именно тот голос, которым актёр говорил 47 лет назад, а с годами его речь изменилась. Во-вторых, даже с учётом того что актёр на протяжении 70-х годов много снимался в кино, записи его голоса не всегда подходили для работы. В разных кинокартинах, в зависимости от роли, актёр менял манеру речи и подачу, на его монологи накладывалась фоновая музыка и шум плюс старые записи, даже оцифрованные, содержат дефекты.

В общей сложности в распоряжении команды ЦРТ было около четырёх минутразнообразно звучащей речи актёра из таких фильмов, как «Глубокие родственники», «Суета сует», «Не может быть» и «Иван Васильевич меняет профессию». Эти аудиодорожки легли в основу обучения системы TTSи синтеза речи.

Для зрителей и слушателей такое аудио ничем не отличается от обычного, и они не смогут различить, что было синтезировано, а что — архивная запись. Однако специальные системы детектирования, которые разрабатывает Группа ЦРТ, способны определить искусственность голоса. Это позволяет защититься от хакеров и безопасно использовать TTS в коммерческих проектах компании.

Благодаря такой кропотливой работе Жорж Милославский побывал на концерте NILETTO, познакомился с новыми сервисами Сбера, а также подарил зрителям радость и веру в новогоднее чудо, ведь такие необычные волшебные истории обычно случаются в канун самого любимого праздника — Нового года.

Владислав Крейнин, старший вице-президент, директор Департамента маркетинга и коммуникаций:

– В нашей новой рекламной кампании мы хотели ещё раз рассказать, что сегодня Сбер уже больше чем банк. А как это сделать просто и технологично?Используя самые передовые технологии, которые у нас есть, мы не только перенесли Жоржа Милославского в 2020 год, но и смогли объединить сразу несколько поколений нашей страны и зарядить предпраздничным настроением, которое так сегодня необходимо всем нам. Вся представленная история — это знакомство героя с новым миром, динамичным, цифровым, полным возможностей. И в этомувлекательном путешествии у любимого киноперсонажа есть доверенный и надёжный помощник — Сбер.

Дмитрий Дырмовский, генеральный директор Группы компаний ЦРТ:

– Группа ЦРТ создаёт технологии мирового уровня, синтез речи (Text-to-speech, TTS) — одна из них. Мы создаём её на стеке методов глубинного обучения, что позволяет добиться высокого качества звучания синтезированного голоса. Учитывая задачи и сроки этого проекта, мы пошли нестандартным путём: собрали данные для обучения TTS из фрагментов фильмов, построили фонемную транскрипцию, выровняли со звуковой дорожкой, очистили данные от постороннего шума. Затем имеющуюся модель, обученную на большом экспрессивном наборе данных, обучили говорить новым голосом, сделали голос эмоциональным, похожим на нашего героя. Так, с помощью нейросетей всего по четырём минутам речи нам удалось воссоздать голос 50-летней давности. Но, несмотря на то что на непрофессиональный слух синтезированный голос неотличим от реального, это всё-таки синтез. Для того чтобы выявлять синтезированный голос от живой человеческой речи, в ЦРТ разрабатывают специальные системы детектирования спуфинг-атак (попыток взлома), они учитывают массу характеристик звука, указывающих на то, что голос не является живым. Мы всегда должны быть на шаг впереди: не только создавать новые технологии и продукты, но и постоянно искать новые средства их защиты. Последние мировые конкурсы демонстрируют, что нам это удаётся».

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Оставляя комментарий, вы соглашаетесь с правилами общения на сайте tv-gubernia.ru. Чтобы отслеживать ответы и реакции пользователей на ваши комментарии, необходимо авторизоваться.

Самое читаемое

Читайте также

Все новости

Последние комментарии

page load time: 0,49965000152588