Как наши разработчики послушали песню Эминема «Mockingbird» больше ста раз и возненавидели её

Команда Салют ТВ рассказала, как работала над балансом звука и голосового управления в телевизорах Сбер серии 7000.

Когда устройство оказывается в магазине, а потом у покупателя, кажется, что оно существовало всегда. Но то, как их разрабатывают — тема не менее интересная. Сегодня делимся деталями создания телевизоров серии 7000: как они обучились выполнять голосовые команды, как настраивают их звучание и что умеет ГигаЧат.

Главная отличительная особенность телевизора серии 7000 — им можно управлять голосовыми командами. Полностью, пульт больше не нужен (хотя в комплекте он есть).

Эту возможность обеспечивают четыре mems-микрофона в так называемом блоке Farfield; именно так называют эту технологию. Четыре — это стандарт рынка, характерный для всех ТВ с голосовым управлением. Как выглядит обработка звука:

— фиксируются сигналы с четырёх микрофонов;

— отдельно от вычислительного блока поступает «чистый» сигнал контента, который сейчас по ТВ;

— софт телевизора обрабатывает сигналы — грубо говоря, вычитает из сигналов микрофона запись с SoC, затем очищает от шумов и прочего. И вот очищенный сигнал уже можно распознавать.

Блок Farfield находится внизу под устройством. Там же кнопка для выключения микрофонов. Тогда телевизором управлять голосом нельзя, но и микрофоны не работают.

В серии 7000 четыре диагонали телевизора: 43", 50", 55", 65". Спикеры и блок Farfield у них одинаковые. Но, например, у 65" другие динамики, механика корпуса тоже отличается от диагонали к диагонали. В результате некоторые физические артефакты появляются на разных частотах. Это, например, щелчки, вибрации, ненужный резонанс.

Телевизор любой диагонали должен звучать идеально. Поэтому часть настроек у умных телевизоров общая — например, усиление микрофона. Остальные приходится подбирать индивидуально для конкретной диагонали

Сначала звук отстраивается с генератором тонов. Затем начинаются пользовательские прослушивания — нравится ли людям звучание? Во время них команда звука сотни раз слушает динамики телевизоров при разных сочетаниях настроек. Чаще всего в ходе процесса запускают один и тот же фильм — «Пчеловод» — и одну и ту же песню: Eminem — Mockingbird. После сотни прослушиваний команда, мягко говоря, сильно охладела и к тому, и к другому.

Слышать их больше не можем
Команда продукта

Когда мы настраиваем звук, фактически нужно работать с двумя разными потоками звука: один воспроизводят динамики телевизора, второй — это команды, которые захватывают микрофоны, чтобы распознать и выполнить. Какая здесь основная сложность:

Когда телевизор максимально громкий, микрофон хуже распознаёт речь. Плюс есть шанс ухудшить качество звука.
Если сфокусироваться на том, чтобы ТВ лучше слышал споттерное слово «Салют», с которого нужно начинать команду — может выйти либо ТВ с тихим, но отличным звуком, либо громкий, но с так себе звуком.
Хочется сделать качественный звук? Надо пожертвовать либо громкостью, либо распознаванием споттерного слова.

Команда ТВ постоянно занята тем, что ищет баланс. Так, когда сигнал обрабатывают усилителем звука, там есть три стадии: цифровое усиление — авторегулировка уровня — аналоговое усиление. На каждой 10-20 параметров, которые можно настроить. Все взаимно влияют друг на друга. В результате выходят тысячи разных комбинаций параметров.

Голосовыми командами можно управлять вообще всем. Запускать фильм, менять его громкость, ставить на паузу и проматывать вперёд/назад. Нажимать на любую кнопку на экране — достаточно назвать её. Например, вы решили посмотреть пятую серию сериала. На экране интерактивные обложки всех серий первого сезона. Скажите:

— Салют, (название сериала), пятая серия.

И обложка нажмётся сама.

Интересный факт: технически, когда вы говорите, что нажать, происходит событие, равное физическому нажатию на кнопку пульта. Но происходит на программном уровне

Телевизоры Сбер оснащены искусственным интеллектом ГигаЧат, как и колонки. Но есть отличие. У ТВ вариантов контента гораздо больше, чем только звуковой: телепередачи, фильмы и сериалы, видео с сервисах, музыка, радио… Поэтому ГигаЧат потребовал доработки.

Во-первых, теперь он разбирается в ТВ-программе. Если телевизор подключён по кабелю, можно даже не уточнять канал. Достаточно спросить:

— Салют, что будет в 19:00 на этом канале?

Или даже:

— Салют, что я смотрю?

Во-вторых, он (как и колонки) должен учитывать, какой контент стал популярным. Условно, вышел сериал «Король и шут» — количество запросов возросло — шанс, что пользователь хочет именно сериал, а не музыку или клип группы, вырос — добавляем в классификатор.

Теперь есть отдельная функция, которая решает, что включить. Она опирается на:

классификатор популярного контента выше;
что именно открыто на экране. Например, если открыт RuTube, музыкальные запросы будут в нём;
попросил ли пользователь конкретный онлайн-кинотеатр. Если попросить «Запусти фильм „Пчеловод“ в ОККО», сразу запустится фильм. Если просто «Запусти фильм „Пчеловод“», телевизор покажет карточку фильма и онлайн-кинотеатры — можно выбрать, где именно смотреть фильм.

Для умных устройств голос — один из самых естественных интерфейсов управления: его не нужно осваивать, он понятен интуитивно. Его можно использовать, даже если ограничен в движениях. Поэтому ТВ с голосовым управлением — это естественная эволюция телевизоров.

Как наши разработчики послушали песню Эминема «Mockingbird» больше ста раз и возненавидели её

Чтобы телевизор понимал голос

Чтобы телевизор звучал

Чтобы искусственный интеллект помогал дома