Whisper для распознавания речи

Whisper — это мощная модель от OpenAI для автоматического распознавания речи. Она позволяет обрабатывать аудиофайлы и голосовые сообщения и переводить их в текст.


Как это работает

  1. Пользователь отправляет в бот голосовое сообщение или аудиофайл (через Форму ввода).

  2. Бот отправляет запрос в Puzzle AI Tracker с указанием модели whisper.

  3. Система обрабатывает аудио и возвращает готовый текст.


Настройка сценария в PuzzleBot

Для работы вам понадобится настроить HTTP-запрос в конструкторе. Но перед этим необходимо получить аудиофайл от пользователя.

1. Получение аудиофайла

Перед отправкой данных в трекер необходимо получить аудиофайл от пользователя.

  1. Сначала создайте две пустые команды в конструкторе:

  • Создайте команду Whisper Form (здесь мы будем принимать файл).

  • Создайте команду Whisper Tracker (здесь будет происходить обработка)..

  1. В команде Whisper Form добавьте Форму ввода.

  • Тип ввода: Отправка сообщения

  • Маска ввода: Аудио и Голосовая запись

  • Переменная: {{whisper_form}}

  1. В этой же команде откройте вкладку "Действия".

  • Выберите "Отправить команду или условие".

  • В поле названия команды выберите созданную ранее Whisper Tracker.

2. Настройка трекера

  1. Перейдите в команду Whisper Tracker, добавьте действие «Отправить запрос» и настройте его:

    • Ссылка: https://api.pxsto.re/main/puzzlebot-tracker

    • Тип запроса: POST

    • Вид запроса: Сформированный

  2. Нажмите на кнопку «Добавить параметр» и укажите параметры из таблицы ниже.


Параметры запроса

Ниже приведен полный список параметров, которые необходимо передать для работы модели Whisper.

Ключ
Значение / Переменная
Описание
Обязательно?

user

{{USER_ID_TEXT}}

ID пользователя Telegram

Да

bot

{{BOT_USERNAME_TEXT}}

Юзернейм вашего бота (без @)

Да

token

Ваш_API_токен

Токен входящих запросов из настроек вашего бота в PuzzleBot

Да

model

whisper

Модель для распознавания речи

Да

file

{{whisper_form}}

Переменная, в которой хранится аудиофайл или голосовое сообщение, отправленное пользователем.

Да

prompt

[ваш промпт] или {{переменная}}

Текстовая подсказка для нейросети. Помогает исправить специфические слова или задать стиль.

Нет

send_answer

true или false

Отправлять ли ответ?

true: Бот пришлет ответ пользователю.

false: Бот не будет отправлять ответ (он будет записан в переменную {{tracker_answer}})

Нет

chat

-1001882765759 (Пример)

ID группового чата или форума для отправки запроса

Нет

Нет

topic

123 (Пример)

ID определенного топика форума

Нет


Получение результата

Важно: Указанные ниже команды необходимо создать в конструкторе PuzzleBot заранее. Названия команд должны полностью совпадать с указанными ниже. Если команды не будут созданы, бот не сможет завершить сценарий.

Создайте команды:

  • whisper_done

  • gpt_done

  • whisper_large_done

  • gemini-2.5-pro_done

Когда расшифровка будет готова, система сама запустит одну из этих команд для пользователя (в зависимости от результата и используемой модели):


Стоимость и логика работы

Модель автоматически выбирает режим обработки в зависимости от размера файла (порог 300 Кб).

1. Лайт версия (файл < 300 Кб). Используется для коротких голосовых сообщений (пара предложений).

  • Стек: базовая версия Whisper + бесплатный обработчик GPT-4.1-nano.

  • Стоимость: 1 AI запрос.

2. Large версия (файл > 300 Кб). Используется для длинных аудио (лекции, встречи). Поддерживает файлы до 20 МБ. В ответ отправляется документ с текстом.

  • Стек: Мощная версия Whisper + обработчик Gemini 2.5 Pro.

  • Стоимость: 30 AI запросов (5 за Whisper Large + 25 за Gemini Pro).

Примеры использования

Использование Whisper совместно с LLM (GPT-4.1 nano/ Gemini 2.5 Pro) открывает возможности не просто для «перевода голоса в текст», а для создания умных сценариев.

1. Голосовое меню и навигация

Вместо того чтобы заставлять клиента нажимать кнопки, позвольте ему просто сказать, что он хочет.

Как это работает. Клиент отправляет голосовое, например: "Хочу записаться на стрижку на завтра".

Логика в PuzzleBot:

  1. Whisper переводит аудио в текст: "Хочу записаться на стрижку на завтра".

  2. Вы используете блок Условие в конструкторе:

    • Если переменная {{tracker_answer}} содержит слово "запис" или "стриж" —> Отправить команду "Запись".

    • Если содержит "цен" или "скольк" —> Отправить команду "Прайс".

Это повышает конверсию, так как пользователю проще сказать, чем искать нужную кнопку в меню.

2. Генерация контента из «потока мыслей»

Идеально для блогеров и экспертов. Вы можете наговорить идею для поста по дороге на работу, а бот превратит её в готовый текст.

  • Входные данные: Аудиофайл на 5-10 минут с размышлениями.

  • Настройка трекера: В поле prompt указываем: "Преврати эту расшифровку в структурированный пост для Telegram с заголовком, эмодзи и выделением главных мыслей".

  • Работа системы:

    1. Включается Whisper Large (так как файл большой).

    2. Подключается Gemini 2.5 Pro (более умная модель).

Вы получаете готовый пост, который остается только опубликовать.

3. Конспекты встреч и лекций

Пользователи могут отправлять боту записи созвонов (Zoom/Google Meet) или лекций.

  • Входные данные: Аудиофайл весом 15 Мб (лекция).

  • Настройка: В поле prompt можно указать: "Сделай подробный конспект (summary) встречи: основные темы, договоренности и задачи (to-do list)".

  • Результат: Бот присылает текстовый файл (документ), в котором из 30 минут разговора выделено главное.

Стоимость 30 AI-запросов окупается экономией часа времени на переслушивание записи.


Совет по заполнению поля prompt

Хотя поле prompt не является обязательным, его использование меняет суть работы трекера:

  • Пустой prompt: Вы получаете дословную расшифровку (транскрибацию) всего, что было сказано.

  • Заполненный prompt: Вы можете попросить нейросеть исправить ошибки, перевести текст на другой язык, сократить или отформатировать результат.

Последнее обновление

Это было полезно?