Как установить speech recognition
Использование распознавания речи в Windows
Просмотрите это видео об использовании распознавания речи для работы с компьютером. (Чтобы просмотреть субтитры, нажмите кнопку «Субтитры».)
Просмотрите это видео об использовании диктовки с распознаванием речи. (Чтобы просмотреть субтитры, нажмите кнопку «Субтитры».)
Распознавание речи Windows делает использование клавиатуры и мыши необязательным. Вместо этого теперь можно управлять компьютером с помощью голоса и диктовать текст для ввода.
Примечание: Распознавание речи доступно только для следующих языков: английский (США и Соединенное Королевство), французский, немецкий, японский, мандаринский диалект (китайский (упрощенное и традиционное на китайском языке) и испанский.
Прежде чем использовать распознавание речи, необходимо выполнить несколько действий. Сначала нужно настроить микрофон. Затем можно научить компьютер распознавать ваш голос.
Прежде чем приступить к настройке функции распознавания речи, убедитесь, что микрофон подключен к компьютеру, иначе настройка не удастся.
Выполните прокрутку от правого края экрана и нажмите кнопку Поиск.
(Если вы используете мышь, найдите правый нижний угол экрана, переместите указатель мыши вверх и нажмите кнопку «Поиск».)
Поиск также можно открыть с помощью клавиатуры, нажав клавиши Windows+Q.
Введите в поле поиска настройка микрофона, а затем выберите элемент Настройка микрофона.
Следуйте указаниям на экране.
Примечание: По возможности используйте микрофон гарнитуры — это снижает вероятность фонового шума.
Обучение компьютера распознаванию речи
Программа распознавания речи использует особый речевой профиль для распознавания голоса пользователя и произносимых команд. Чем дольше вы пользуетесь распознаванием речи, тем более подробным становится ваш речевой профиль и тем лучше компьютер интерпретирует ваши команды.
Выполните прокрутку от правого края экрана и нажмите кнопку Поиск.
(Если вы используете мышь, найдите правый нижний угол экрана, переместите указатель мыши вверх и нажмите кнопку «Поиск».)
Поиск также можно открыть с помощью клавиатуры, нажав клавиши Windows+Q.
Введите в поле поиска распознавание речи, а затем коснитесь элемента Распознавание речи или щелкните его.
Нажмите или щелкните элемент Обучить компьютер для улучшения распознавания вашего голоса.
Следуйте инструкциям по настройке речевого ввода для распознавания речи.
При помощи голосовых команд можно выполнять многие задачи, например заполнять электронные формы или писать письма. Когда вы произносите слова в микрофон, программа распознавания речи преобразует их в текст, который отображается на экране.
Диктовка текста с помощью программы распознавания речи
Выполните прокрутку от правого края экрана и нажмите кнопку Поиск.
(Если вы используете мышь, найдите правый нижний угол экрана, переместите указатель мыши вверх и нажмите кнопку «Поиск».)
Поиск также можно открыть с клавиатуры, нажав клавиши Windows +Q.
Введите в поле поиска распознавание речи, а затем коснитесь элемента Распознавание речи Windows или щелкните его.
Произнесите команду «Start listening» либо коснитесь кнопки микрофона или нажмите ее, чтобы войти в режим прослушивания.
Откройте приложение или выберите текстовое поле, куда нужно вставить продиктованный текст.
Исправлять ошибки можно тремя способами:
Чтобы исправить последнюю произнесенную фразу, скажите «Correct that».
Чтобы исправить одно слово, произнесите команду «Correct», а затем это слово. Если слово повторяется несколько раз, то все случаи его употребления будут выделены, и можно выбрать тот, который нужно исправить.
Назовите номер, указанный рядом с нужным элементом в диалоговом окне Панель вариантов, а затем скажите «ОК».
Добавление и изменение слов в словаре
При помощи словаря распознавания можно добавлять собственные слова, запрещать диктовку определенных слов, а также исправлять и удалять слова из словаря.
Выполните прокрутку от правого края экрана и нажмите кнопку Поиск.
(Если вы используете мышь, найдите правый нижний угол экрана, переместите указатель мыши вверх и нажмите кнопку «Поиск».)
Поиск также можно открыть с клавиатуры, нажав клавиши Windows +Q.
Введите в поле поиска распознавание речи, а затем коснитесь элемента Распознавание речи Windows или щелкните его.
Произнесите команду «Start listening» либо коснитесь кнопки микрофона или нажмите ее, чтобы войти в режим прослушивания.
Произнесите команду «Open speech dictionary» и выполните любое из этих действий:
Чтобы добавить слово в словарь, произнесите команду «Add a new word» и следуйте указаниям.
Чтобы запретить диктовку определенного слова, произнесите команду «Prevent a word from being dictated» и следуйте указаниям.
Для управления компьютером можно использовать простые короткие команды. В таблице ниже даны некоторые наиболее часто используемые команды распознавания речи. Слова, выделенные полужирным шрифтом, указывают на то, что можно заменить примером слова или фразы похожими словами и получить полезные результаты.
Для управления компьютером также можно использовать сочетания клавиш. Со списком всех доступных сочетаний можно ознакомиться в разделе Сочетания клавиш.
Примечание: Если вы не знаете, какие команды использовать, произнесите «What can I say?».
Окончательное руководство по распознаванию речи с Python
Перевод статьи Оглавление Как работает распознавание речи – обзор Выбор пакета распознавания речи Python Установка SpeechRecognition Класс распознавателя Работа с…
Задумывались ли вы, как добавить распознавание речи в ваш проект Python? Если так, то продолжайте читать! Это проще, чем вы думаете.
Отнюдь не будучи увлечением, ошеломляющий успех продуктов с поддержкой речи, таких как Amazon Alexa, доказал, что некоторая степень речевой поддержки будет важным аспектом бытовой техники в обозримом будущем. Если подумать, причины этого довольно очевидны. Включение распознавания речи в ваше приложение Python обеспечивает уровень интерактивности и доступности, которому могут соответствовать немногие технологии.
Стоит рассмотреть только улучшения доступности. Распознавание речи позволяет пожилым людям и людям с нарушениями зрения и зрения быстро и естественным образом взаимодействовать с самыми современными продуктами и услугами – без графического интерфейса!
Лучше всего, в том числе распознавание речи в проекте Python действительно просто. В этом руководстве вы узнаете, как это сделать. Вы узнаете:
В конце концов, вы примените то, что вы узнали, к простой игре «Угадай слово» и посмотрим, как все это сложится.
Бесплатный бонус: нажмите здесь, чтобы загрузить пример проекта распознавания речи Python с полным исходным кодом, который вы можете использовать в качестве основы для своих собственных приложений для распознавания речи.
Как работает распознавание речи – обзор
Прежде чем мы перейдем к тщательному выполнению распознавания речи в Python, давайте немного поговорим о том, как работает распознавание речи. Полное обсуждение заполнило бы книгу, поэтому я не буду утомлять вас всеми техническими деталями здесь. На самом деле, этот раздел не является обязательным условием для остальной части учебника. Если вы хотите перейти прямо к делу, не стесняйтесь пропустить.
Распознавание речи коренится в исследованиях, проведенных в лаборатории Bell в начале 1950-х годов. Ранние системы были ограничены одним говорящим и имели ограниченный словарный запас из примерно дюжины слов. Современные системы распознавания речи прошли долгий путь со времен своих древних аналогов. Они могут распознавать речь от нескольких носителей и имеют огромные словари на многих языках.
Первым компонентом распознавания речи является, конечно же, речь. Речь должна быть преобразована из физического звука в электрический сигнал с помощью микрофона, а затем в цифровые данные с помощью аналого-цифрового преобразователя. После оцифровки можно использовать несколько моделей для преобразования звука в текст.
Большинство современных систем распознавания речи опираются на так называемую скрытую марковскую модель (HMM). Этот подход работает в предположении, что речевой сигнал при просмотре на достаточно коротком временном интервале (скажем, десять миллисекунд) может быть разумно аппроксимирован как стационарный процесс, то есть процесс, в котором статистические свойства не изменяются со временем.
В типичном HMM речевой сигнал делится на 10-миллисекундные фрагменты. Спектр мощности каждого фрагмента, который по сути является графиком мощности сигнала как функции частоты, отображается на вектор действительных чисел, известный как кепстральные коэффициенты. Размерность этого вектора обычно невелика – иногда до 10, хотя более точные системы могут иметь размерность 32 или более. Окончательный результат HMM представляет собой последовательность этих векторов.
Чтобы декодировать речь в текст, группы векторов сопоставляются с одной или несколькими фонемами – фундаментальной единицей речи. Этот расчет требует обучения, так как звук фонемы варьируется от говорящего к говорящему и даже варьируется от одного высказывания к другому одним и тем же говорящим. Затем применяется специальный алгоритм для определения наиболее вероятного слова (или слов), которые производят данную последовательность фонем.
Можно представить, что весь этот процесс может быть вычислительно дорогим. Во многих современных системах распознавания речи нейронные сети используются для упрощения речевого сигнала с использованием методов преобразования признаков и уменьшения размерности до распознавания НММ. Детекторы голосовой активности (VAD) также используются для уменьшения аудиосигнала только до тех участков, которые могут содержать речь. Это не позволяет распознавателю тратить время на анализ ненужных частей сигнала.
Выбор пакета распознавания речи Python
В PyPI существует несколько пакетов для распознавания речи. Некоторые из них включают в себя:
Некоторые из этих пакетов, такие как wit и apiai, предлагают встроенные функции, такие как обработка на естественном языке для определения намерений говорящего, которые выходят за рамки базового распознавания речи. Другие, такие как google-cloud-speech, сосредоточены исключительно на преобразовании речи в текст.
Существует один пакет, который отличается простотой использования: SpeechRecognition.
Для распознавания речи требуется аудиовход, а SpeechRecognition делает его очень простым. Вместо того, чтобы создавать сценарии для доступа к микрофонам и обработки аудиофайлов с нуля, SpeechRecognition обеспечит вам работу всего за несколько минут.
Библиотека SpeechRecognition действует как оболочка для нескольких популярных речевых API и, таким образом, является чрезвычайно гибкой. Один из них – Google Web Speech API – поддерживает ключ API по умолчанию, который жестко запрограммирован в библиотеке SpeechRecognition. Это означает, что вы можете подняться без необходимости подписываться на услугу.
Гибкость и простота использования пакета SpeechRecognition делают его отличным выбором для любого проекта Python. Тем не менее, поддержка каждой функции каждого API, который он включает, не гарантируется. Вам нужно будет потратить некоторое время на изучение доступных вариантов, чтобы выяснить, будет ли SpeechRecognition работать в вашем конкретном случае.
Итак, теперь, когда вы убеждены, что вам стоит попробовать SpeechRecognition, следующим шагом будет установка его в вашей среде.
Установка SpeechRecognition
Вы можете установить SpeechRecognition из терминала с помощью pip:
После установки вы должны проверить установку, открыв сеанс интерпретатора и набрав:>>>
Примечание. Номер получаемой вами версии может отличаться. Версия 3.8.1 была последней на момент написания.
Продолжайте и держите эту сессию открытой. Вы начнете работать с ним чуть позже.
SpeechRecognition будет работать из коробки, если все, что вам нужно, это работать с существующими аудиофайлами. Однако конкретные случаи использования требуют нескольких зависимостей. В частности, пакет PyAudio необходим для захвата микрофонного входа.
Вы увидите, какие зависимости вам нужны, когда будете читать дальше. А пока давайте углубимся и изучим основы пакета.
Recognizer Класс
Вся магия в SpeechRecognition происходит с Recognizer классом.
Основной целью Recognizer экземпляра, конечно же, является распознавание речи. Каждый экземпляр поставляется с различными настройками и функциями для распознавания речи из аудиоисточника.
Создать Recognizer экземпляр легко. В текущем сеансе интерпретатора просто введите:>>>
Каждый Recognizer экземпляр имеет семь методов для распознавания речи из аудиоисточника с использованием различных API. Эти:
Из семи recognize_sphinx() работает только в автономном режиме с движком CMU Sphinx. Остальные шесть требуют подключения к интернету.
Хорошо, достаточно болтовни. Давайте испачкаем руки. Продолжайте и попробуйте позвонить recognize_google() на ваш сеанс переводчика.>>>
Вы, вероятно, получили что-то похожее на это:
Вы могли догадаться, что это произойдет. Как можно что-то узнать из ничего?
Существует два способа создания AudioData экземпляра: из аудиофайла или аудио, записанного с помощью микрофона. С аудиофайлами немного легче начать, так что давайте сначала посмотрим на это.
Работа с аудио файлами
SpeechRecognition облегчает работу с аудиофайлами благодаря удобному AudioFile классу. Этот класс может быть инициализирован путем к пути к аудиофайлу и предоставляет интерфейс диспетчера контекста для чтения и работы с содержимым файла.
Поддерживаемые типы файлов
В настоящее время SpeechRecognition поддерживает следующие форматы файлов:
Если вы работаете на Linux, MacOS или Windows на основе x-86, вы сможете без проблем работать с файлами FLAC. На других платформах вам нужно будет установить кодировщик FLAC и убедиться, что у вас есть доступ к flac инструменту командной строки. Вы можете найти больше информации здесь, если это относится к вам.
Использование record() для захвата данных из файла
Введите в сеанс интерпретатора следующую команду для обработки содержимого файла «harvard.wav»:>>>
Диспетчер контекста открывает файл и считывает его содержимое, сохраняя данные в AudioFile экземпляре с именем. source. Затем record() метод записывает данные из всего файла в AudioData экземпляр. Вы можете подтвердить это, проверив тип audio :>>>
Теперь вы можете вызвать recognize_google() попытку распознать любую речь в аудио. В зависимости от скорости вашего интернет-соединения, вам может потребоваться подождать несколько секунд, прежде чем вы увидите результат.>>>
Поздравляем! Вы только что расшифровали свой первый аудиофайл!
Если вам интересно, откуда взяты фразы в файле «harvard.wav», это примеры предложений Гарварда. Эти фразы были опубликованы IEEE в 1965 году для использования при тестировании разборчивости речи телефонных линий. Они все еще используются в тестировании VoIP и сотовой связи сегодня.
Захват сегментов с offset и duration
Например, следующее фиксирует любую речь в первые четыре секунды файла:>>>
record() Метод, когда используется внутри with блока, всегда движется вперед в потоке файла. Это означает, что если вы записываете один раз в течение четырех секунд, а затем снова записываете в течение четырех секунд, второй раз возвращает четыре секунды звука после первых четырех секунд.>>>
Обратите внимание, что audio2 содержит часть третьей фразы в файле. При указании длительности запись может останавливаться в середине фразы или даже в середине слова, что может повлиять на точность транскрипции. Подробнее об этом чуть позже.
В дополнение к указанию продолжительности записи, record() метод может быть задан конкретной отправной точкой, используя offset ключевое слово аргумент. Это значение представляет количество секунд от начала файла, которое нужно игнорировать перед началом записи.
Чтобы захватить только вторую фразу в файле, вы можете начать со смещения в четыре секунды и записывать, скажем, три секунды.>>>
Начав запись в 4,7 секунды, вы пропускаете часть «it t» в начале фразы «требуется тепло, чтобы выявить запах», поэтому API получил только «akes heat», что соответствует «Mesquite. »
Точно так же в конце записи вы записали «со», что является началом третьей фразы «холодное падение восстанавливает здоровье и радость». Это соответствует «Айко» API.
Есть еще одна причина, по которой вы можете получить неточные записи. Шум! Приведенные выше примеры хорошо работали, потому что аудиофайл достаточно чистый. В реальном мире, если у вас нет возможности предварительно обработать аудиофайлы, вы не можете ожидать, что звук будет свободным от шума.
Влияние шума на распознавание речи
Шум это факт жизни. Все аудиозаписи содержат некоторую степень шума, а необработанный шум может нарушить точность приложений распознавания речи.
В этом файле есть фраза «несвежий запах старого пива, задерживающегося», на котором громкий отбойный молоток на заднем плане.
Что происходит, когда вы пытаетесь расшифровать этот файл?>>>
Так как вы справляетесь с этим? Одна вещь, которую вы можете попробовать, это использовать adjust_for_ambient_noise() метод Recognizer класса.>>>
Это немного приблизило вас к настоящей фразе, но она все еще не идеальна. Кроме того, «the» отсутствует в начале фразы. Это почему?
adjust_for_ambient_noise() Метод считывает первые второй из потока файлов и калибрует распознаватель к уровню шума аудио. Следовательно, эта часть потока используется перед вызовом record() для захвата данных.
Вы можете настроить период времени, который adjust_for_ambient_noise() используется для анализа, с помощью duration ключевого аргумента. Этот аргумент принимает числовое значение в секундах и по умолчанию равен 1. Попробуйте уменьшить это значение до 0,5.>>>
Ну, это дало вам «в начале» фразы, но теперь у вас есть новые проблемы! Иногда невозможно устранить влияние шума – сигнал слишком шумный, чтобы с ним можно было справиться. Так обстоит дело с этим файлом.
Вы можете сделать это, установив show_all ключевое слово аргумента recognize_google() метода в True. >>>
Как видите, recognize_google() возвращает словарь с ключом, ‘alternative’ который указывает на список возможных расшифровок. Структура этого ответа может варьироваться от API к API и в основном полезна для отладки.
Теперь самое интересное. Давайте перейдем от расшифровки статических аудиофайлов к интерактивному проекту, приняв ввод с микрофона.
Работа с микрофонами
Установка PyAudio
Процесс установки PyAudio зависит от вашей операционной системы.
Debian Linux
Если вы используете Linux на основе Debian (например, Ubuntu), вы можете установить PyAudio с apt :
Macos
Для macOS сначала вам нужно установить PortAudio с Homebrew, а затем установить PyAudio с pip :
Windows
В Windows вы можете установить PyAudio с pip :
Тестирование установки
После установки PyAudio вы можете проверить установку с консоли.
Убедитесь, что ваш микрофон по умолчанию включен и включен. Если установка сработала, вы должны увидеть что-то вроде этого:
Продолжайте и поиграйте с ним немного, поговорив в микрофон и увидев, насколько хорошо SpeechRecognition транскрибирует вашу речь.
Примечание. Если вы работаете в Ubuntu и получаете какой-то прикольный вывод, например «ALSA lib… Unknown PCM», обратитесь к этой странице за советами по подавлению этих сообщений. Этот вывод поступает из пакета ALSA, установленного с Ubuntu, а не из SpeechRecognition или PyAudio. В действительности, эти сообщения могут указывать на проблему с вашей конфигурацией ALSA, но, по моему опыту, они не влияют на функциональность вашего кода. Они в основном неприятность.
Microphone Класс
Откройте другой сеанс интерпретатора и создайте экземпляр класса распознавателя.>>>
Теперь вместо использования аудиофайла в качестве источника вы будете использовать системный микрофон по умолчанию. Вы можете получить к нему доступ, создав экземпляр Microphone класса.>>>
Если в вашей системе отсутствует микрофон по умолчанию (например, на RaspberryPi), или вы хотите использовать микрофон, отличный от стандартного, вам необходимо указать, какой из них использовать, указав индекс устройства. Вы можете получить список имен микрофонов, вызвав list_microphone_names() статический метод Microphone класса.>>>
Обратите внимание, что ваш вывод может отличаться от приведенного выше примера.
Индекс устройства микрофона – это индекс его имени в списке, возвращаемом. list_microphone_names(). Например, учитывая вышеприведенный вывод, если вы хотите использовать микрофон с именем «front», который имеет индекс 3 в списке, вы должны создать микрофон. например, как это:>>>
Тем не менее, для большинства проектов вы, вероятно, захотите использовать системный микрофон по умолчанию.
Использование listen() для захвата входа микрофона
Теперь, когда у вас есть Microphone готовый экземпляр, пришло время собрать некоторые данные.
Так же, как AudioFile класс, Microphone это менеджер контекста. Вы можете захватить ввод с микрофона, используя listen() метод Recognizer класса внутри with блока. Этот метод принимает источник звука в качестве первого аргумента и записывает входные данные от источника, пока не будет обнаружена тишина.>>>
Как только вы выполните with блок, попробуйте сказать «привет» в свой микрофон. Подождите, пока приглашение переводчика не отобразится снова. Как только появится приглашение «>>>», вы готовы распознать речь.>>>
Если подсказка не возвращается, ваш микрофон, скорее всего, воспринимает слишком много окружающего шума. Вы можете прервать процесс с помощью + ctrl + c ++, чтобы вернуть ваше приглашение.
Чтобы справиться с окружающим шумом, вам нужно использовать adjust_for_ambient_noise() метод Recognizer класса, как вы это делали, когда пытались разобраться в зашумленном аудиофайле. Поскольку ввод с микрофона гораздо менее предсказуем, чем ввод из аудиофайла, рекомендуется делать это каждый раз, когда вы слушаете микрофонный вход.>>>
После запуска приведенного выше кода, подождите секунду, adjust_for_ambient_noise() чтобы сделать свое дело, затем попробуйте сказать «привет» в микрофон. Опять же, вам придется немного подождать, пока переводчик предложит вернуться, прежде чем попытаться распознать речь.
Напомним, что adjust_for_ambient_noise() анализируется источник звука в течение одной секунды. Если это кажется вам слишком длинным, не стесняйтесь отрегулировать это с помощью duration ключевого аргумента.
Документация SpeechRecognition рекомендует использовать продолжительность не менее 0,5 секунд. В некоторых случаях вы можете обнаружить, что длительность, превышающая значение по умолчанию в одну секунду, дает лучшие результаты. Минимальное значение, которое вам нужно, зависит от окружающей среды микрофона. К сожалению, эта информация обычно неизвестна во время разработки. По моему опыту, длительность по умолчанию в одну секунду подходит для большинства приложений.
Обработка неузнаваемой речи
Попробуйте набрать предыдущий пример кода в интерпретаторе и сделать несколько неразборчивых шумов в микрофон. Вы должны получить что-то вроде этого в ответ:
Соедини все вместе: игра «Угадай слово»
Теперь, когда вы ознакомились с основами распознавания речи с помощью пакета SpeechRecognition, давайте применим ваши новые знания и напишем небольшую игру, которая выбирает случайное слово из списка и дает пользователю три попытки угадать слово.
Вот полный сценарий:
Давайте разберемся с этим немного.
Затем этот listen() метод используется для записи микрофонного входа:
Этот adjust_for_ambient_noise() метод используется для калибровки распознавателя для изменения условий шума при каждом recognize_speech_from_mic() вызове функции.
Вы можете протестировать recognize_speech_from_mic() функцию, сохранив приведенный выше сценарий в файл с именем «guessing_game.py» и выполнив следующее в сеансе интерпретатора:>>>
Сама игра довольно проста. Во-первых, объявляется список слов, максимальное количество разрешенных догадок и лимит подсказок:
Далее, Recognizer и Microphone экземпляр создаются и случайное слово выбрано из WORDS :
Если ошибок не было, транскрипция сравнивается со случайно выбранным словом. lower() Метод строковых объектов используются для обеспечения лучшего согласования угадать с выбранным словом. API может возвращать речь, соответствующую слову «яблоко» как «яблоко» или «яблоко», и любой ответ должен считаться правильным ответом.
Если предположение было верным, пользователь выигрывает, и игра прекращается. Если пользователь ошибся и у него есть оставшиеся попытки, внешний for цикл повторяется и получается новое предположение. В противном случае пользователь проигрывает игру.
При запуске вывод будет выглядеть примерно так:
Резюме и дополнительные ресурсы
В этом учебном пособии вы увидели, как установить пакет SpeechRecognition и использовать его Recognizer класс для простого распознавания речи как из файла – с помощью record() – и ввода с микрофона – с использованием. listen(). Вы также увидели, как обрабатывать сегменты аудиофайла, используя аргументы offset и duration ключевое слово от record() метода.
Вы видели, как шум может влиять на точность транскрипции, и узнали, как настроить Recognizer чувствительность экземпляра к окружающему шуму с помощью adjust_for_ambient_noise(). Вы также узнали, какие исключения Recognizer может генерировать экземпляр – RequestError для некорректных запросов API и UnkownValueError для неразборчивой речи – и как справиться с этим с try. except блоками.
Распознавание речи – глубокий предмет, и то, что вы узнали здесь, едва царапает поверхность. Если вы заинтересованы в получении дополнительной информации, вот несколько дополнительных ресурсов.
Бесплатный бонус: нажмите здесь, чтобы загрузить пример проекта распознавания речи Python с полным исходным кодом, который вы можете использовать в качестве основы для своих собственных приложений для распознавания речи.
Для получения дополнительной информации о пакете SpeechRecognition:
Несколько интересных интернет-ресурсов:
Несколько хороших книг о распознавании речи:
Приложение: Распознавание речи на языках, отличных от английского
На протяжении всего этого урока мы распознавали речь на английском языке, который является языком по умолчанию для каждого recognize_*() метода пакета SpeechRecognition. Тем не менее, это абсолютно возможно для распознавания речи на других языках, и это довольно просто сделать.
Чтобы распознать речь на другом языке, задайте в качестве language аргумента ключевого слова recognize_*() метода строку, соответствующую нужному языку. Большинство методов принимают языковой тег BCP-47, например, ‘en-US’ для американского английского или ‘fr-FR’ французского. Например, следующее распознает французскую речь в аудиофайле:
Только следующие методы принимают language аргумент ключевого слова: