Whisper для распознавания речи

Whisper — это мощная модель от OpenAI для автоматического распознавания речи. Она позволяет обрабатывать аудиофайлы и голосовые сообщения и переводить их в текст.

Как это работает

Пользователь отправляет в бот голосовое сообщение или аудиофайл (через Форму ввода).
Бот отправляет запрос в Puzzle AI Tracker с указанием модели whisper.
Система обрабатывает аудио и возвращает готовый текст.

Настройка сценария в PuzzleBot

Для работы вам понадобится настроить HTTP-запрос в конструкторе. Но перед этим необходимо получить аудиофайл от пользователя.

1. Получение аудиофайла

Перед отправкой данных в трекер необходимо получить аудиофайл от пользователя.

Сначала создайте две пустые команды в конструкторе:

Создайте команду Whisper Form (здесь мы будем принимать файл).
Создайте команду Whisper Tracker (здесь будет происходить обработка)..

В команде Whisper Form добавьте Форму ввода.

Тип ввода: Отправка сообщения
Маска ввода: Аудио и Голосовая запись
Переменная: {{whisper_form}}

В этой же команде откройте вкладку "Действия".

Выберите "Отправить команду или условие".
В поле названия команды выберите созданную ранее Whisper Tracker.

2. Настройка трекера

Перейдите в команду Whisper Tracker, добавьте действие «Отправить запрос» и настройте его:
- Ссылка: https://api.pxsto.re/main/puzzlebot-tracker
- Тип запроса: POST
- Вид запроса: Сформированный
Нажмите на кнопку «Добавить параметр» и укажите параметры из таблицы ниже.

Параметры запроса

Ниже приведен полный список параметров, которые необходимо передать для работы модели Whisper.

Ключ

Значение / Переменная

Описание

Обязательно?

user

{{USER_ID_TEXT}}

ID пользователя Telegram

Да

bot

{{BOT_USERNAME_TEXT}}

Юзернейм вашего бота (без @)

Да

token

Ваш_API_токен

Токен входящих запросов из настроек вашего бота в PuzzleBot

Да

model

whisper

Модель для распознавания речи

Да

file

{{whisper_form}}

Переменная, в которой хранится аудиофайл или голосовое сообщение, отправленное пользователем.

Да

prompt

[ваш промпт] или {{переменная}}

Текстовая подсказка для нейросети. Помогает исправить специфические слова или задать стиль.

Нет

send_answer

true или false

Отправлять ли ответ?

• true: Бот пришлет ответ пользователю.

• false: Бот не будет отправлять ответ (он будет записан в переменную {{tracker_answer}})

Нет

chat

-1001882765759 (Пример)

ID группового чата или форума для отправки запроса

Нет

topic

123 (Пример)

ID определенного топика форума

Нет

Получение результата

Важно: Указанные ниже команды необходимо создать в конструкторе PuzzleBot заранее. Названия команд должны полностью совпадать с указанными ниже. Если команды не будут созданы, бот не сможет завершить сценарий.

Создайте команды:

whisper_done
gpt_done
whisper_large_done
gemini-2.5-pro_done

Когда расшифровка будет готова, система сама запустит одну из этих команд для пользователя (в зависимости от результата и используемой модели):

Стоимость и логика работы

Модель автоматически выбирает режим обработки в зависимости от размера файла (порог 300 Кб).

1. Лайт версия (файл < 300 Кб). Используется для коротких голосовых сообщений (пара предложений).

Стек: базовая версия Whisper + бесплатный обработчик GPT-4.1-nano.
Стоимость: 1 AI запрос.

2. Large версия (файл > 300 Кб). Используется для длинных аудио (лекции, встречи). Поддерживает файлы до 20 МБ. В ответ отправляется документ с текстом.

Стек: Мощная версия Whisper + обработчик Gemini 2.5 Pro.
Стоимость: 30 AI запросов (5 за Whisper Large + 25 за Gemini Pro).

Примеры использования

Использование Whisper совместно с LLM (GPT-4.1 nano/ Gemini 2.5 Pro) открывает возможности не просто для «перевода голоса в текст», а для создания умных сценариев.

1. Голосовое меню и навигация

Вместо того чтобы заставлять клиента нажимать кнопки, позвольте ему просто сказать, что он хочет.

Как это работает. Клиент отправляет голосовое, например: "Хочу записаться на стрижку на завтра".

Логика в PuzzleBot:

Whisper переводит аудио в текст: "Хочу записаться на стрижку на завтра".
Вы используете блок Условие в конструкторе:
- Если переменная {{tracker_answer}} содержит слово "запис" или "стриж" —> Отправить команду "Запись".
- Если содержит "цен" или "скольк" —> Отправить команду "Прайс".

Это повышает конверсию, так как пользователю проще сказать, чем искать нужную кнопку в меню.

2. Генерация контента из «потока мыслей»

Идеально для блогеров и экспертов. Вы можете наговорить идею для поста по дороге на работу, а бот превратит её в готовый текст.

Входные данные: Аудиофайл на 5-10 минут с размышлениями.
Настройка трекера: В поле prompt указываем: "Преврати эту расшифровку в структурированный пост для Telegram с заголовком, эмодзи и выделением главных мыслей".
Работа системы:
1. Включается Whisper Large (так как файл большой).
2. Подключается Gemini 2.5 Pro (более умная модель).

Вы получаете готовый пост, который остается только опубликовать.

3. Конспекты встреч и лекций

Пользователи могут отправлять боту записи созвонов (Zoom/Google Meet) или лекций.

Входные данные: Аудиофайл весом 15 Мб (лекция).
Настройка: В поле prompt можно указать: "Сделай подробный конспект (summary) встречи: основные темы, договоренности и задачи (to-do list)".
Результат: Бот присылает текстовый файл (документ), в котором из 30 минут разговора выделено главное.

Стоимость 30 AI-запросов окупается экономией часа времени на переслушивание записи.

Совет по заполнению поля `prompt`

Хотя поле prompt не является обязательным, его использование меняет суть работы трекера:

Пустой prompt: Вы получаете дословную расшифровку (транскрибацию) всего, что было сказано.
Заполненный prompt: Вы можете попросить нейросеть исправить ошибки, перевести текст на другой язык, сократить или отформатировать результат.

ПредыдущаяВидеоэффекты (VFX)СледующаяСоздание документов с помощью GPT

Последнее обновление 2 месяца назад

Это было полезно?

Доброе утро

hashtagКак это работает

hashtagНастройка сценария в PuzzleBot

hashtagПараметры запроса

hashtagПолучение результата

hashtagСтоимость и логика работы

hashtagПримеры использования

hashtagСовет по заполнению поля prompt