Как наши разработчики послушали песню Эминема «Mockingbird» больше ста раз и возненавидели её
Команда Салют ТВ рассказала, как работала над балансом звука и голосового управления в телевизорах Сбер серии 7000.
Когда устройство оказывается в магазине, а потом у покупателя, кажется, что оно существовало всегда. Но то, как их разрабатывают — тема не менее интересная. Сегодня делимся деталями создания телевизоров серии 7000: как они обучились выполнять голосовые команды, как настраивают их звучание и что умеет ГигаЧат.
Чтобы телевизор понимал голос
Главная отличительная особенность телевизора серии 7000 — им можно управлять голосовыми командами. Полностью, пульт больше не нужен (хотя в комплекте он есть).
Эту возможность обеспечивают четыре mems-микрофона в так называемом блоке Farfield; именно так называют эту технологию. Четыре — это стандарт рынка, характерный для всех ТВ с голосовым управлением. Как выглядит обработка звука:
— фиксируются сигналы с четырёх микрофонов;
— отдельно от вычислительного блока поступает «чистый» сигнал контента, который сейчас по ТВ;
— софт телевизора обрабатывает сигналы — грубо говоря, вычитает из сигналов микрофона запись с SoC, затем очищает от шумов и прочего. И вот очищенный сигнал уже можно распознавать.
Блок Farfield находится внизу под устройством. Там же кнопка для выключения микрофонов. Тогда телевизором управлять голосом нельзя, но и микрофоны не работают.
В серии 7000 четыре диагонали телевизора: 43", 50", 55", 65". Спикеры и блок Farfield у них одинаковые. Но, например, у 65" другие динамики, механика корпуса тоже отличается от диагонали к диагонали. В результате некоторые физические артефакты появляются на разных частотах. Это, например, щелчки, вибрации, ненужный резонанс.
Телевизор любой диагонали должен звучать идеально. Поэтому часть настроек у умных телевизоров общая — например, усиление микрофона. Остальные приходится подбирать индивидуально для конкретной диагонали
Сначала звук отстраивается с генератором тонов. Затем начинаются пользовательские прослушивания — нравится ли людям звучание? Во время них команда звука сотни раз слушает динамики телевизоров при разных сочетаниях настроек. Чаще всего в ходе процесса запускают один и тот же фильм — «Пчеловод» — и одну и ту же песню: Eminem — Mockingbird. После сотни прослушиваний команда, мягко говоря, сильно охладела и к тому, и к другому.
Слышать их больше не можем
Чтобы телевизор звучал
Когда мы настраиваем звук, фактически нужно работать с двумя разными потоками звука: один воспроизводят динамики телевизора, второй — это команды, которые захватывают микрофоны, чтобы распознать и выполнить. Какая здесь основная сложность:
- Когда телевизор максимально громкий, микрофон хуже распознаёт речь. Плюс есть шанс ухудшить качество звука.
- Если сфокусироваться на том, чтобы ТВ лучше слышал споттерное слово «Салют», с которого нужно начинать команду — может выйти либо ТВ с тихим, но отличным звуком, либо громкий, но с так себе звуком.
- Хочется сделать качественный звук? Надо пожертвовать либо громкостью, либо распознаванием споттерного слова.
Команда ТВ постоянно занята тем, что ищет баланс. Так, когда сигнал обрабатывают усилителем звука, там есть три стадии: цифровое усиление — авторегулировка уровня — аналоговое усиление. На каждой 10-20 параметров, которые можно настроить. Все взаимно влияют друг на друга. В результате выходят тысячи разных комбинаций параметров.
Голосовыми командами можно управлять вообще всем. Запускать фильм, менять его громкость, ставить на паузу и проматывать вперёд/назад. Нажимать на любую кнопку на экране — достаточно назвать её. Например, вы решили посмотреть пятую серию сериала. На экране интерактивные обложки всех серий первого сезона. Скажите:
— Салют, (название сериала), пятая серия.
И обложка нажмётся сама.
Интересный факт: технически, когда вы говорите, что нажать, происходит событие, равное физическому нажатию на кнопку пульта. Но происходит на программном уровне
Чтобы искусственный интеллект помогал дома
Телевизоры Сбер оснащены искусственным интеллектом ГигаЧат, как и колонки. Но есть отличие. У ТВ вариантов контента гораздо больше, чем только звуковой: телепередачи, фильмы и сериалы, видео с сервисах, музыка, радио… Поэтому ГигаЧат потребовал доработки.
Во-первых, теперь он разбирается в ТВ-программе. Если телевизор подключён по кабелю, можно даже не уточнять канал. Достаточно спросить:
— Салют, что будет в 19:00 на этом канале?
Или даже:
— Салют, что я смотрю?
Во-вторых, он (как и колонки) должен учитывать, какой контент стал популярным. Условно, вышел сериал «Король и шут» — количество запросов возросло — шанс, что пользователь хочет именно сериал, а не музыку или клип группы, вырос — добавляем в классификатор.
Теперь есть отдельная функция, которая решает, что включить. Она опирается на:
- классификатор популярного контента выше;
- что именно открыто на экране. Например, если открыт RuTube, музыкальные запросы будут в нём;
- попросил ли пользователь конкретный онлайн-кинотеатр. Если попросить «Запусти фильм „Пчеловод“ в ОККО», сразу запустится фильм. Если просто «Запусти фильм „Пчеловод“», телевизор покажет карточку фильма и онлайн-кинотеатры — можно выбрать, где именно смотреть фильм.
Для умных устройств голос — один из самых естественных интерфейсов управления: его не нужно осваивать, он понятен интуитивно. Его можно использовать, даже если ограничен в движениях. Поэтому ТВ с голосовым управлением — это естественная эволюция телевизоров.