На главную

Кейс · 04

Голосовой бот — AI-агент в реальном времени

Собран голосовой AI-агент: пользователь говорит, бот распознаёт речь, передаёт запрос в LLM, отвечает синтезированным голосом и отсекает рискованные сценарии через safety-слой.

Тип Voice AI · Рабочий прототип
Пайплайн STT · LLM · TTS
Фокус Диалог голосом
Safety 31 автотест

Overview

Это не текстовый бот с озвучкой, а голосовой сценарий от начала до конца.

Пользователь не заполняет форму и не печатает сообщение. Он говорит голосом, система распознаёт речь, пропускает запрос через LLM-логику, проверяет безопасность сценария и возвращает ответ синтезированным голосом.

Такой формат подходит для помощников, которые должны работать в моменте: когда человеку проще сказать, чем писать, а ответ нужен сразу и в том же канале.

How it works

Пайплайн держится на четырёх шагах: услышать, понять, проверить и ответить голосом.

01

Речь пользователя

Пользователь говорит естественно, без формы и кнопок. Система принимает голос как основной интерфейс, а не как дополнительную команду.

02

STT и нормализация

Аудио превращается в текст, очищается от шумов разговорной речи и передаётся дальше уже как понятный запрос.

03

LLM-логика

Модель разбирает смысл запроса, выбирает допустимый сценарий ответа и не уходит в темы, которые должен остановить safety-слой.

04

Голосовой ответ

Ответ возвращается пользователю синтезированной речью. Диалог ощущается как разговор с помощником, а не как чтение текста с экрана.

Safety layer

В голосовом интерфейсе особенно важно не отвечать быстрее, чем система успела проверить риск.

До ответа запрос проходит через защитный контур: рискованные формулировки отсекаются до основной логики.

Safety-слой проверяется автотестами, чтобы изменения в промптах или правилах не ломали базовые ограничения поведения.

31 тест закрывает стартовый набор сценариев: допустимые вопросы, пограничные запросы, отказы и формулировки безопасных ответов.

Results

Получился рабочий прототип голосового AI-агента с понятной архитектурой и тестируемым safety-контуром.

Собран end-to-end voice pipeline. Речь проходит путь STT → LLM → TTS без ручного переключения пользователя в текстовый чат.

Диалог остаётся голосовым. Пользователь говорит и получает ответ тем же каналом, поэтому сценарий подходит для ситуаций, где неудобно печатать.

Safety вынесен в отдельный слой. Рискованные сценарии проверяются отдельно от основной логики ответа, а не спрятаны в одном большом промпте.

Базовый контур покрыт тестами. 31 автотест помогает ловить регрессии в правилах поведения до выката.

Tech stack

Voice input

Приём голосового сообщения, подготовка аудио и передача в STT-слой для распознавания речи.

Reasoning

LLM-слой для разбора смысла запроса, выбора сценария ответа и подготовки короткой реплики для пользователя.

Voice output

TTS-слой для синтеза голосового ответа и возврата результата в тот же диалоговый поток.

Safety & tests

Отдельный safety-контур, тестовые сценарии для отказов и 31 автотест на базовое поведение агента.