Речь пользователя
Пользователь говорит естественно, без формы и кнопок. Система принимает голос как основной интерфейс, а не как дополнительную команду.
Кейс · 04
Собран голосовой AI-агент: пользователь говорит, бот распознаёт речь, передаёт запрос в LLM, отвечает синтезированным голосом и отсекает рискованные сценарии через safety-слой.
Overview
Это не текстовый бот с озвучкой, а голосовой сценарий от начала до конца.
Пользователь не заполняет форму и не печатает сообщение. Он говорит голосом, система распознаёт речь, пропускает запрос через LLM-логику, проверяет безопасность сценария и возвращает ответ синтезированным голосом.
Такой формат подходит для помощников, которые должны работать в моменте: когда человеку проще сказать, чем писать, а ответ нужен сразу и в том же канале.
How it works
Пайплайн держится на четырёх шагах: услышать, понять, проверить и ответить голосом.
Пользователь говорит естественно, без формы и кнопок. Система принимает голос как основной интерфейс, а не как дополнительную команду.
Аудио превращается в текст, очищается от шумов разговорной речи и передаётся дальше уже как понятный запрос.
Модель разбирает смысл запроса, выбирает допустимый сценарий ответа и не уходит в темы, которые должен остановить safety-слой.
Ответ возвращается пользователю синтезированной речью. Диалог ощущается как разговор с помощником, а не как чтение текста с экрана.
Safety layer
В голосовом интерфейсе особенно важно не отвечать быстрее, чем система успела проверить риск.
До ответа запрос проходит через защитный контур: рискованные формулировки отсекаются до основной логики.
Safety-слой проверяется автотестами, чтобы изменения в промптах или правилах не ломали базовые ограничения поведения.
31 тест закрывает стартовый набор сценариев: допустимые вопросы, пограничные запросы, отказы и формулировки безопасных ответов.
Results
Получился рабочий прототип голосового AI-агента с понятной архитектурой и тестируемым safety-контуром.
Собран end-to-end voice pipeline. Речь проходит путь STT → LLM → TTS без ручного переключения пользователя в текстовый чат.
Диалог остаётся голосовым. Пользователь говорит и получает ответ тем же каналом, поэтому сценарий подходит для ситуаций, где неудобно печатать.
Safety вынесен в отдельный слой. Рискованные сценарии проверяются отдельно от основной логики ответа, а не спрятаны в одном большом промпте.
Базовый контур покрыт тестами. 31 автотест помогает ловить регрессии в правилах поведения до выката.
Tech stack
Приём голосового сообщения, подготовка аудио и передача в STT-слой для распознавания речи.
LLM-слой для разбора смысла запроса, выбора сценария ответа и подготовки короткой реплики для пользователя.
TTS-слой для синтеза голосового ответа и возврата результата в тот же диалоговый поток.
Отдельный safety-контур, тестовые сценарии для отказов и 31 автотест на базовое поведение агента.