ИИ в продажах

Как ИИ-робот ведёт диалог по телефону — простыми словами

Команда ТикТак5 мин чтения

Большинство уверено, что робот на линии — это магнитофон: нажали кнопку, плёнка крутится, человек слушает заготовленный текст. Поэтому первая мысль при звонке от «робота» — переждать запись и положить трубку. Но если на том конце голосовой искусственный интеллект, плёнки там нет вообще. Есть четыре технологии, которые за доли секунды успевают услышать вас, понять смысл сказанного и собрать ответ голосом — пока вы ещё держите трубку у уха.

Коротко

Голосовой ИИ не проигрывает запись. Он распознаёт вашу речь, понимает смысл ответа языковой моделью и синтезирует реплику в реальном времени — это диалог, а не монолог по кругу.

Четыре технологии под капотом

Разговор, который кажется одним цельным голосом, на самом деле — конвейер из четырёх частей. Каждая делает свою работу и передаёт результат дальше.

Синтез речи (TTS) берёт текст реплики и превращает его в звук. Не достаёт готовый файл, а собирает голос заново — с интонацией, паузами, ударениями. Поэтому робот может произнести имя из вашей карточки или сумму заказа, которых не было ни в какой «записи».

Распознавание речи (STT) работает в обратную сторону: слушает вас и переводит сказанное в текст. «Да, давайте» превращается в строку, с которой уже можно что-то делать.

Языковая модель — мозг этой связки. Она читает распознанный текст и понимает, что вы имели в виду: согласие, отказ, вопрос, сомнение. Не по точному совпадению слов, а по смыслу. «Перезвоните завтра», «сейчас неудобно» и «давайте позже» — три разные фразы, но модель видит за ними одно намерение и ведёт разговор туда, куда нужно.

Телефония связывает всё это с настоящей линией: набирает номер, держит соединение, передаёт звук в обе стороны. Без неё конвейер работал бы вхолостую, никому не звоня.

Что происходит за один ход разговора

Разберём один обмен репликами по шагам — от вашего «алло» до ответа робота.

Вы берёте трубку и говорите. STT в этот момент уже слушает и переводит вашу речь в текст. Как только вы договорили, текст уходит в языковую модель. Та определяет смысл и выбирает следующую реплику по сценарию: на согласие — одна ветка, на возражение — другая, на вопрос — третья. Выбранный текст уходит в TTS, превращается в голос, и телефония отдаёт этот голос вам в трубку.

Весь круг — услышать, понять, ответить — укладывается в считанные доли секунды. Именно поэтому пауза после вашей фразы ощущается как обычная человеческая заминка, а не как зависание программы. Если бы конвейер думал секундами, диалог рассыпался бы: люди не ждут так долго в живом разговоре.

На заметку

Сценарий задаёт не дословные фразы, а развилки. Робот не «читает по бумажке» — он каждый раз выбирает ветку в зависимости от того, что услышал. Один и тот же сценарий по-разному отыгрывается для согласного и для скептика.

Почему робот замолкает, когда его перебивают

Самая заметная черта живого разговора — возможность перебить. Вы начали говорить поверх собеседника, и он умолкает, чтобы вас выслушать. В роботах это называется barge-in, и без него никакой диалог невозможен.

Механика простая на словах и сложная внутри: пока робот произносит свою реплику, STT всё равно продолжает слушать линию. Как только система слышит, что заговорили вы, она обрывает синтез на полуслове и переключается на распознавание. Робот замолкает — и слушает.

Сравните с автоинформатором. Тот дочитает сообщение до конца, что бы вы ни говорили, потому что он вас в принципе не слышит. Голосовой робот слышит постоянно, поэтому его можно перебить, переспросить, остановить — как живого человека. Эта же способность отличает диалог от монолога: разговор идёт в обе стороны, а не в одну.

Важно

Плохо настроенный barge-in — частая причина «тупящего» робота: он либо перебивает сам себя на фоновом шуме, либо, наоборот, не реагирует, пока вы не замолчите. Качество диалога держится именно на тонкой настройке этого момента, а не на «умности» модели как таковой.

Где живой диалог реально нужен

Не каждому звонку нужен весь этот конвейер. Если задача — просто проиграть сообщение «ваш заказ готов к выдаче», хватит автоинформатора: слушать ответ там нечего.

Голосовой ИИ окупается там, где нужно услышать собеседника и среагировать на сказанное:

  • Квалификация базы — отделить тех, кому интересно, от тех, кому нет, по их же ответам.
  • Подтверждение и напоминания — где человек может перенести, отказаться или задать встречный вопрос.
  • Реактивация — вернуть давнего клиента, отработав его «а почему я должен».
  • Опросы — собрать ответы, а не просто зачитать вопросы в пустоту.

Везде, где разговор может пойти не по одному рельсу, нужен робот, который слышит ответ и выбирает ветку. Там, где рельс ровно один, достаточно записи. Подробнее о том, что умеет голосовой робот для обзвона, мы разбирали отдельно — а как поставить такие звонки на поток, в материале про автообзвон клиентов.

Дайте роботу вести диалог

ТикТак слышит ответ, понимает смысл и ведёт разговор по сценарию живым голосом — по правилам РФ.

Запустить первую кампанию →

Коротко

Голосовой искусственный интеллект — это не плёнка, а конвейер из четырёх технологий: синтез речи, распознавание, языковая модель и телефония. Вместе они успевают услышать вас, понять смысл и ответить за доли секунды, а barge-in позволяет перебить робота, как живого собеседника. Магнитофон так не умеет — и в этом вся разница между записью и диалогом.

Частые вопросы

Голосовой робот проигрывает заранее записанные фразы или говорит сам?+

Современный голосовой искусственный интеллект синтезирует речь на лету: текст реплики превращается в звук в момент разговора. Это не плейлист записей, а голос, собранный под конкретный ответ собеседника.

Как робот понимает, что ему ответил человек?+

Распознавание речи (STT) переводит сказанное в текст, а языковая модель определяет смысл: согласие, отказ, вопрос или возражение. По смыслу выбирается следующая реплика — поэтому «не сейчас» и «вообще не звоните» ведут робота по разным веткам.

Почему робот иногда замолкает, когда его перебиваешь?+

Это barge-in: робот слышит, что вы начали говорить, и останавливает свою реплику, чтобы выслушать. Без этой механики получился бы автоинформатор, который дочитывает текст, не реагируя на собеседника.

Читайте дальше