Как ИИ-робот ведёт диалог по телефону — простыми словами
Большинство уверено, что робот на линии — это магнитофон: нажали кнопку, плёнка крутится, человек слушает заготовленный текст. Поэтому первая мысль при звонке от «робота» — переждать запись и положить трубку. Но если на том конце голосовой искусственный интеллект, плёнки там нет вообще. Есть четыре технологии, которые за доли секунды успевают услышать вас, понять смысл сказанного и собрать ответ голосом — пока вы ещё держите трубку у уха.
Голосовой ИИ не проигрывает запись. Он распознаёт вашу речь, понимает смысл ответа языковой моделью и синтезирует реплику в реальном времени — это диалог, а не монолог по кругу.
Четыре технологии под капотом
Разговор, который кажется одним цельным голосом, на самом деле — конвейер из четырёх частей. Каждая делает свою работу и передаёт результат дальше.
Синтез речи (TTS) берёт текст реплики и превращает его в звук. Не достаёт готовый файл, а собирает голос заново — с интонацией, паузами, ударениями. Поэтому робот может произнести имя из вашей карточки или сумму заказа, которых не было ни в какой «записи».
Распознавание речи (STT) работает в обратную сторону: слушает вас и переводит сказанное в текст. «Да, давайте» превращается в строку, с которой уже можно что-то делать.
Языковая модель — мозг этой связки. Она читает распознанный текст и понимает, что вы имели в виду: согласие, отказ, вопрос, сомнение. Не по точному совпадению слов, а по смыслу. «Перезвоните завтра», «сейчас неудобно» и «давайте позже» — три разные фразы, но модель видит за ними одно намерение и ведёт разговор туда, куда нужно.
Телефония связывает всё это с настоящей линией: набирает номер, держит соединение, передаёт звук в обе стороны. Без неё конвейер работал бы вхолостую, никому не звоня.
Что происходит за один ход разговора
Разберём один обмен репликами по шагам — от вашего «алло» до ответа робота.
Вы берёте трубку и говорите. STT в этот момент уже слушает и переводит вашу речь в текст. Как только вы договорили, текст уходит в языковую модель. Та определяет смысл и выбирает следующую реплику по сценарию: на согласие — одна ветка, на возражение — другая, на вопрос — третья. Выбранный текст уходит в TTS, превращается в голос, и телефония отдаёт этот голос вам в трубку.
Весь круг — услышать, понять, ответить — укладывается в считанные доли секунды. Именно поэтому пауза после вашей фразы ощущается как обычная человеческая заминка, а не как зависание программы. Если бы конвейер думал секундами, диалог рассыпался бы: люди не ждут так долго в живом разговоре.
Сценарий задаёт не дословные фразы, а развилки. Робот не «читает по бумажке» — он каждый раз выбирает ветку в зависимости от того, что услышал. Один и тот же сценарий по-разному отыгрывается для согласного и для скептика.
Почему робот замолкает, когда его перебивают
Самая заметная черта живого разговора — возможность перебить. Вы начали говорить поверх собеседника, и он умолкает, чтобы вас выслушать. В роботах это называется barge-in, и без него никакой диалог невозможен.
Механика простая на словах и сложная внутри: пока робот произносит свою реплику, STT всё равно продолжает слушать линию. Как только система слышит, что заговорили вы, она обрывает синтез на полуслове и переключается на распознавание. Робот замолкает — и слушает.
Сравните с автоинформатором. Тот дочитает сообщение до конца, что бы вы ни говорили, потому что он вас в принципе не слышит. Голосовой робот слышит постоянно, поэтому его можно перебить, переспросить, остановить — как живого человека. Эта же способность отличает диалог от монолога: разговор идёт в обе стороны, а не в одну.
Плохо настроенный barge-in — частая причина «тупящего» робота: он либо перебивает сам себя на фоновом шуме, либо, наоборот, не реагирует, пока вы не замолчите. Качество диалога держится именно на тонкой настройке этого момента, а не на «умности» модели как таковой.
Где живой диалог реально нужен
Не каждому звонку нужен весь этот конвейер. Если задача — просто проиграть сообщение «ваш заказ готов к выдаче», хватит автоинформатора: слушать ответ там нечего.
Голосовой ИИ окупается там, где нужно услышать собеседника и среагировать на сказанное:
- Квалификация базы — отделить тех, кому интересно, от тех, кому нет, по их же ответам.
- Подтверждение и напоминания — где человек может перенести, отказаться или задать встречный вопрос.
- Реактивация — вернуть давнего клиента, отработав его «а почему я должен».
- Опросы — собрать ответы, а не просто зачитать вопросы в пустоту.
Везде, где разговор может пойти не по одному рельсу, нужен робот, который слышит ответ и выбирает ветку. Там, где рельс ровно один, достаточно записи. Подробнее о том, что умеет голосовой робот для обзвона, мы разбирали отдельно — а как поставить такие звонки на поток, в материале про автообзвон клиентов.
ТикТак слышит ответ, понимает смысл и ведёт разговор по сценарию живым голосом — по правилам РФ.
Запустить первую кампанию →Коротко
Голосовой искусственный интеллект — это не плёнка, а конвейер из четырёх технологий: синтез речи, распознавание, языковая модель и телефония. Вместе они успевают услышать вас, понять смысл и ответить за доли секунды, а barge-in позволяет перебить робота, как живого собеседника. Магнитофон так не умеет — и в этом вся разница между записью и диалогом.
Частые вопросы
Голосовой робот проигрывает заранее записанные фразы или говорит сам?+
Современный голосовой искусственный интеллект синтезирует речь на лету: текст реплики превращается в звук в момент разговора. Это не плейлист записей, а голос, собранный под конкретный ответ собеседника.
Как робот понимает, что ему ответил человек?+
Распознавание речи (STT) переводит сказанное в текст, а языковая модель определяет смысл: согласие, отказ, вопрос или возражение. По смыслу выбирается следующая реплика — поэтому «не сейчас» и «вообще не звоните» ведут робота по разным веткам.
Почему робот иногда замолкает, когда его перебиваешь?+
Это barge-in: робот слышит, что вы начали говорить, и останавливает свою реплику, чтобы выслушать. Без этой механики получился бы автоинформатор, который дочитывает текст, не реагируя на собеседника.