Handy — десктопное с открытым исходным кодом приложение для преобразования речи в текст, которое позволяет вводить текст при помощи микрофона вместо клавиатуры. Программа работает в фоновом режиме и может использоваться практически где угодно: текстовых редакторах, браузерах, мессенджерах, средах разработки и т.д. Достаточно нажать назначенную горячую клавишу, произнести фразу, после чего распознанная речь автоматически вставляется в активное текстовое поле.

Обработка аудио выполняется полностью локально, без передачи данных в интернет или сторонние сервисы, что позволяет использовать программу даже в средах, где важно сохранить приватность информации. Для распознавания речи применяются современные модели машинного обучения, включая Whisper и Parakeet.

Отдельное внимание уделено качеству обработки звука. Встроенные алгоритмы анализируют аудиопоток, удаляют паузы, фоновые шумы и случайные звуки. Благодаря этому на выходе получается более чистый и структурированный текст. Программа может использовать различные модели распознавания, включая варианты, оптимизированные как для работы на ЦП, так и с ускорением через видеокарту.

Основные возможности Handy:

  • Преобразование речи в текст с помощью микрофона в режиме реального времени.
  • Работа практически в любом приложении с текстовым вводом: редакторы, мессенджеры, браузеры, IDE.
  • Полностью локальная обработка аудио без передачи данных в облачные сервисы.
  • Поддержка моделей распознавания речи Whisper и Parakeet.
  • Корректная работа с русским и другими языками.
  • Фильтрация фонового шума и пауз с использованием алгоритмов определения голосовой активности.
  • Использование горячих клавиш для начала и остановки записи.
  • Поддержка режима "push-to-talk".
  • Кроссплатформенность.
  • Поддержка аппаратного ускорения GPU для ускоренной обработки речи.
