Что такое синтез речи и для чего он нужен

Не у всех людей есть время обстоятельно знакомиться с услугами или товарами компании: читать статьи, разбираться в интерфейсе. Поэтому чем быстрее клиент получит нужные ему сведения о продукте, тем вероятнее всего купит его у вас, а не у конкурентов. Ускорить знакомство с компанией поможет технология синтеза речи. Расскажем, для чего нужен синтез речи, и дадим обзор сервисов.

#MANGO_PRODUCTS#

Что такое синтез речи или TTS (text-to-speech)

Синтез речи — это перевод текста в речь с помощью компьютерных технологий. Многие компании стали активно внедрять в свой бизнес речевые технологии. С их помощью можно озвучить различный контент: электронные книги, тексты статей, инструкции и навигационные элементы на сайтах — онлайн-чаты, описания товаров и инструкции.

А также TTS создает субтитры и дает возможность виртуальному ассистенту говорить. Самые известные — «Маруся» от VK, «Алиса» от «Яндекса», «Салют» от Сбера, Siri от Apple.

Какие преимущества дает text-to-speech

Охват широкой аудитории. Контент становится доступным для людей разных категорий. В первую очередь для тех, у кого есть проблемы с чтением и зрением — людям с дислексией, которые путают слова и меняют местами слоги, или, например, людям c сильной близорукостью.
Доступ для иностранных читателей. Технология озвучит текст с той же интонацией и акцентом, что у носителя языка.
Лояльность и доверие клиентов. Голосовые помощники распознают запрос от человека в любой, разговорной форме, и становятся настоящими собеседниками для пользователей. Например, вы можете спросить: «А что там с погодой? Тепло ли одеться?». И система поймет запрос, даст развернутый прогноз и рекомендации по одежде.
Экономия средств. Для создания аудиокниг, подкастов или озвучки субтитров не придется тратиться на студию и артистов озвучки, система сделает это сама.
Разнообразие контента. Один и тот же материал дается в разных форматах: текстом и подкастом, чтобы охватить пользователей, у которых нет времени читать статью, но зато могут послушать ее в машине по пути на работу.
Служба поддержки клиентов 24\7. Голосовой помощник может заменить специалиста по работе с клиентами и помочь сориентировать по услугам компании, акциям, условиям оформления заказа.

Так, в 2022 году российская компания Neuro.net разработала для различных веб-сайтов человекоподобного голосового помощника Web Personal Assistant. Его можно использовать в различных сферах: страховые организации, e-commerce, сфера услуг. Например, на сайте магазина техники такой ассистент в любое время суток поможет пользователю выбрать товар, сориентировать по условиям акциями, предложить сопутствующие.

Технология синтеза речи

Работа TTS состоит в переводе текста в аудиодорожку. Делает она это в несколько этапов с помощью специальных модулей:

Анализ текста. Он может поступить в произвольной форме: с сокращениями, неправильным порядком слов в предложении. Но прежде чем его озвучить, система должна привести его к единому формату: перевести цифры в текст, расшифровать аббревиатуры и сокращения. Чтобы по итогу остался только набор букв.

С этим помогает модуль NLP, который распознает и обрабатывает речь. Например, введенный текст будет такой: «Я живу на улице 1-й Знаменский пр-д, д. 6, кв. 55». А система перепишет все сокращения и цифры в текст: «Я живу на улице первый Знаменский проезд, дом шесть, квартира пятьдесят пять». А затем через запятую оставит набор букв.

Фонетическая транскрипция. Здесь система определяет, как произносить слова, с учетом фонетики, так как в русском языке много слов, у которых написание отличается от произношения. Например, когда гласная «о» не под ударением, мы произносим вместо нее «а» — «проект, контент».

На этом этапе работает модуль LTS, который переводит буквы в звуки. После этого система строит гипотезы, как озвучить текст согласно просодии. То есть с какой интонацией, смысловыми паузами, эмоциями произносить слова.

Синтез речи. На этом этапе модуль DSP, который обрабатывает цифровые сигналы, создает речь с учетом всех проанализированных данных текста.

Выделяют 2 самые популярные модели синтеза речи: компилятивную и параметрическую.

Компилятивная модель синтеза речи

Применяется в приложениях с несложной озвучкой функционала, где не нужно строить длинные, развернутые предложения, например в голосовом калькуляторе или электронных часах.

Система собирает речь из отдельных звуковых единиц: букв и слогов. Источником этих звуков выступает заранее записанный голос диктора. Его речь разбирается на отдельные фрагменты — дифоны. Это переход между двумя соседними буквами. Например, в английском языке [daɪfəʊn] дифонами являются [da], [aɪ], [ɪf], [fə], [əʊ], [ʊn].

Количество дифонов для каждого языка может кардинально отличаться. Например, в испанском есть около 800 дифонов, а в немецком — около 2500.

Плюсы этой модели в том, что уже есть единая база звуков, и речь синтезируется почти мгновенно. Как это происходит в гугл-переводчике. Минус этой модели —- плохая адаптивность к изменению тембра голоса. Речь механическая, неестественная.

Параметрическая модель синтеза речи

За счет технологии скрытых марковских моделей, система выдает более развернутую речь, максимально приближенную к человеческой. Учитывает речевые паузы, интонацию, меняет тембр голоса.

Так как система вариативна, и выдает фразы в зависимости от контекста, ее используют для виртуальных помощников, которые могут проконсультировать клиентов.

Например, компания Билайн создала виртуального ассистента, который помогает пациентам записаться к врачу. Он выясняет запрос, подбирает подходящих специалистов и свободную дату.

Для чего компании используют text-to-speech

Создают своего голосового помощника с уникальным голосом. Виртуальный ассистент помогает разобраться с интерфейсом сайта, сделать заказ или записаться на услугу. И делает это голосом, который будет ассоциироваться с вашим бизнесом.

Например, банк ВТБ с помощью технологии от Yandex.Cloud — SpeechKit Brand Voice, разработал брендированный голос для финансового помощника. Голосом Роберта Дауни-младшего и Джейсона Стэйтема виртуальный ассистент рассказывает клиентам банка подробности кредита, проценты по вкладам и другую справочную информацию.

Информируют клиентов о выгодных предложениях. Голосовые боты с модулем TTS делает холодные звонки клиентам и озвучивают текст с рассылкой акции или новой услуги. Особенно эта функция пригодится клиникам и салонам красоты, где администраторы физически могут не успевать за день записать новых пациентов на прием и проинформировать старых о выгодных предложениях.

Озвучка интерфейса. С помощью технологии text to the speech можно озвучить отдельные кнопки на сайте или в приложении, описание товаров. Это расширит аудиторию пользователей и слабовидящие люди также смогут воспользоваться услугами компании.

У Сбербанка отдельной вкладкой идет версия для слабовидящих, где все функции озвучиваются диктором

Обзор сервисов с технологией TTS

SaluteSpeech

Технология TTS синтезирует речь, максимально приближенную к человеческой: делает смысловые паузы, расставляет ударение, правильно произносит цифры и адреса, даже если они были написаны в сокращенной форме. Включает одновременно две технологии: синтез и распознавание речи. С ее помощью можно:

Озвучивать новости, репортажи, подкасты, ролики и презентации.
Настроить голосовой робот для обзвона клиентов и отправки рассылок с акциями.
Консультировать по наличию товара, его цене, сроке доставки.
Озвучить отдельные кнопки, пункты меню на сайте или в приложении.
Уточнять статус заказа, отвечать на вопросы.

В тариф входит синтез речи до 200 000 символов в месяц. Стоимость — 600 рублей в месяц.

С SaluteSpeech вы можете выбрать разный голос для своего бренда: мужской, женский или вымышленного персонажа.

Yandex SpeechKit

Особенность сервиса в том, что можно настроить голосового робота под ваш бизнес с учетом ниши: маркетинг, продажи, сфера услуг. Например, медицинскому сервису Yandex SpeechKit может предложить функции записи пациентов роботом на прием. И периодический обзвон клиентов с предложением пройти медосмотр.

А для сферы маркетинга может настроить голосового бота для сбора обратной связи. Когда услуга уже оказана и нужно провести анкетирование, чтобы на основе этих данных знать, как повысить качество товара или услуги.

Рутинную работу можно доверить голосовым помощникам, например, ответы на часто задаваемые вопросы.

Речевая аналитика MANGO OFFICE — сервис, основанный на технологии распознавания речи и текстовых коммуникаций. Он переводит не текст в аудио, а наоборот.

Сервис сохраняет все диалоги, расшифровывает и предоставляет отчет. Визуально понятная оценка работы каждого сотрудника или отдела. Ничто не останется в тени: выявляйте неэффективных сотрудников и ошибки.

Искусственный интеллект автоматически размечает разговоры по нужным словам и тематикам. Меняйте и добавляйте новые тематики в зависимости от задач и потребностей. Сервис считывает эмоции и выделяет негативный окрас в разговоре, показывает, перебивал ли сотрудник собеседника, следовал ли скрипту. Стоимость от 300 рублей в месяц. Получите демодоступ на неделю.

Для глубокого анализа разговоров доступны 32 словаря, можно создать свои, например, включив в них стоп-слова

Выводы: text to speech — что это

Технологию TTS используют как для озвучки текста в простых приложениях, например, в онлайн-переводчике, так и в создании голосовых помощников, таких как «Алиса».
С помощью технологии TTS можно озвучивать меню приложений и сайтов, описание товаров, подкасты, книги.
Голосовые ассистенты выполняют сразу несколько функций: консультируют по наличию товара, доступности услуг, сроках доставки, а также сами обзванивают холодных клиентов, чтобы рассказать об акциях и выгодных предложениях.