Whisper для распознавания речи
Whisper — это мощная модель от OpenAI для автоматического распознавания речи. Она позволяет обрабатывать аудиофайлы и голосовые сообщения и переводить их в текст.
Как это работает
Пользователь отправляет в бот голосовое сообщение или аудиофайл (через Форму ввода).
Бот отправляет запрос в Puzzle AI Tracker с указанием модели
whisper.Система обрабатывает аудио и возвращает готовый текст.
Настройка сценария в PuzzleBot
Для работы вам понадобится настроить HTTP-запрос в конструкторе. Но перед этим необходимо получить аудиофайл от пользователя.
1. Получение аудиофайла
Перед отправкой данных в трекер необходимо получить аудиофайл от пользователя.
Сначала создайте две пустые команды в конструкторе:
Создайте команду
Whisper Form(здесь мы будем принимать файл).Создайте команду
Whisper Tracker(здесь будет происходить обработка)..
В команде Whisper Form добавьте Форму ввода.
Тип ввода:
Отправка сообщенияМаска ввода:
АудиоиГолосовая записьПеременная:
{{whisper_form}}

В этой же команде откройте вкладку "Действия".
Выберите "Отправить команду или условие".
В поле названия команды выберите созданную ранее Whisper Tracker.

2. Настройка трекера
Перейдите в команду Whisper Tracker, добавьте действие «Отправить запрос» и настройте его:
Ссылка:
https://api.pxsto.re/main/puzzlebot-trackerТип запроса:
POSTВид запроса:
Сформированный
Нажмите на кнопку «Добавить параметр» и укажите параметры из таблицы ниже.

Параметры запроса
Ниже приведен полный список параметров, которые необходимо передать для работы модели Whisper.
user
{{USER_ID_TEXT}}
ID пользователя Telegram
Да
bot
{{BOT_USERNAME_TEXT}}
Юзернейм вашего бота (без @)
Да
token
Ваш_API_токен
Токен входящих запросов из настроек вашего бота в PuzzleBot
Да
model
whisper
Модель для распознавания речи
Да
file
{{whisper_form}}
Переменная, в которой хранится аудиофайл или голосовое сообщение, отправленное пользователем.
Да
prompt
[ваш промпт] или {{переменная}}
Текстовая подсказка для нейросети. Помогает исправить специфические слова или задать стиль.
Нет
send_answer
true или false
Отправлять ли ответ?
• true: Бот пришлет ответ пользователю.
• false: Бот не будет отправлять ответ (он будет записан в переменную {{tracker_answer}})
Нет
chat
-1001882765759 (Пример)
ID группового чата или форума для отправки запроса
Нет
Нет
topic
123 (Пример)
ID определенного топика форума
Нет
Получение результата
Важно: Указанные ниже команды необходимо создать в конструкторе PuzzleBot заранее. Названия команд должны полностью совпадать с указанными ниже. Если команды не будут созданы, бот не сможет завершить сценарий.
Создайте команды:
whisper_donegpt_donewhisper_large_donegemini-2.5-pro_done

Когда расшифровка будет готова, система сама запустит одну из этих команд для пользователя (в зависимости от результата и используемой модели):
Стоимость и логика работы
Модель автоматически выбирает режим обработки в зависимости от размера файла (порог 300 Кб).
1. Лайт версия (файл < 300 Кб). Используется для коротких голосовых сообщений (пара предложений).
Стек: базовая версия Whisper + бесплатный обработчик GPT-4.1-nano.
Стоимость: 1 AI запрос.
2. Large версия (файл > 300 Кб). Используется для длинных аудио (лекции, встречи). Поддерживает файлы до 20 МБ. В ответ отправляется документ с текстом.
Стек: Мощная версия Whisper + обработчик Gemini 2.5 Pro.
Стоимость: 30 AI запросов (5 за Whisper Large + 25 за Gemini Pro).
Примеры использования
Использование Whisper совместно с LLM (GPT-4.1 nano/ Gemini 2.5 Pro) открывает возможности не просто для «перевода голоса в текст», а для создания умных сценариев.
1. Голосовое меню и навигация
Вместо того чтобы заставлять клиента нажимать кнопки, позвольте ему просто сказать, что он хочет.
Как это работает. Клиент отправляет голосовое, например: "Хочу записаться на стрижку на завтра".
Логика в PuzzleBot:
Whisper переводит аудио в текст: "Хочу записаться на стрижку на завтра".
Вы используете блок Условие в конструкторе:
Если переменная
{{tracker_answer}}содержит слово "запис" или "стриж" —> Отправить команду "Запись".Если содержит "цен" или "скольк" —> Отправить команду "Прайс".
Это повышает конверсию, так как пользователю проще сказать, чем искать нужную кнопку в меню.
2. Генерация контента из «потока мыслей»
Идеально для блогеров и экспертов. Вы можете наговорить идею для поста по дороге на работу, а бот превратит её в готовый текст.
Входные данные: Аудиофайл на 5-10 минут с размышлениями.
Настройка трекера: В поле
promptуказываем: "Преврати эту расшифровку в структурированный пост для Telegram с заголовком, эмодзи и выделением главных мыслей".Работа системы:
Включается Whisper Large (так как файл большой).
Подключается Gemini 2.5 Pro (более умная модель).
Вы получаете готовый пост, который остается только опубликовать.
3. Конспекты встреч и лекций
Пользователи могут отправлять боту записи созвонов (Zoom/Google Meet) или лекций.
Входные данные: Аудиофайл весом 15 Мб (лекция).
Настройка: В поле
promptможно указать: "Сделай подробный конспект (summary) встречи: основные темы, договоренности и задачи (to-do list)".Результат: Бот присылает текстовый файл (документ), в котором из 30 минут разговора выделено главное.
Стоимость 30 AI-запросов окупается экономией часа времени на переслушивание записи.
Совет по заполнению поля prompt
promptХотя поле prompt не является обязательным, его использование меняет суть работы трекера:
Пустой prompt: Вы получаете дословную расшифровку (транскрибацию) всего, что было сказано.
Заполненный prompt: Вы можете попросить нейросеть исправить ошибки, перевести текст на другой язык, сократить или отформатировать результат.
Последнее обновление
Это было полезно?