Синтезатор речи google для windows: Скачивание голосов для иммерсивного чтения, режима чтения и чтения вслух
Скачивание голосов для иммерсивного чтения, режима чтения и чтения вслух
Пользователи, использующие средства обучения OneNote,средства обучения в Wordи функцию «Прочитать вслух» в области «Редактор» в Office и браузере Microsoft Edge, в этой статье представлены способы скачивания новых языков для функции «Текст в речь» в различных версиях Windows.
Установка нового языка преобразования текста в речь в Windows 10
В параметрах Windows 10 нужное приложение скачиваете нужный язык, а затем настраиваете язык речи.
-
Выберите кнопку «Начните», а затем выберите «Параметры».
-
Выбрав «Параметры Windows» в представлении, выберите «Время & язык».
-
Выберите язык & региона,а затем выберите «Добавить язык».
-
Выберите нужный язык из списка. Начнется установка языка.
-
После установки нового языка выберите его в списке языковой & региона и выберите «Параметры».
-
В параметрах языка выберите нужные скачивания (языковой пакет, рукописный заметок и клавиатура).
-
Теперь вам нужно изменить параметры распознавания речи по умолчанию. Для начала выберите «Речь».
-
Теперь настройте параметры речи.
-
Чтобы выбрать нужный язык, выберите язык с распознаванием речи. -
Распознайте нестандартные акценты для этого языка: чтобы активировать эту функцию, нужно включить ее. -
Текстовая речь: изменение голоса по умолчанию, скорость голоса и предварительный просмотр голоса.
-
-
Наконец, выберите «Начать работу» в разделе «Микрофон», чтобы настроить микрофон Кортаны.
Установка нового языка преобразования текста в речь в Windows 8.1
В любом выпуске Windows 8.1 выполните указанные ниже действия.
-
Откройте панель управления.
-
Выберите пункт Язык.
-
Выберите команду Добавить язык.
-
В открывшемся диалоговом окне выберите язык, который хотите добавить, а затем в нижней части списка нажмите кнопку Добавить.
-
Под добавленным языком щелкните Скачивание и установка языкового пакета.
После этого Windows скачает и установит выбранный языковой пакет. Может потребоваться перезагрузить компьютер.
После перезапуска новый язык станет доступен для преобразования текста в речь, и иммерсивное средство чтения в средствах обучения для OneNote сможет распознавать текст и читать его на необходимом языке.
Языки преобразования текста в речь и голоса, доступные в Windows
Язык (регион)
|
Windows 10 и Windows 8.1
|
Windows 8
|
Имя
|
Пол
|
---|---|---|---|---|
Китайский (Гонконг)
|
Д
|
Н
|
Tracy
|
Женский
|
Китайский (Тайвань)
|
Д
|
Д
|
Hanhan
|
Женский
|
Китайский (Китайская Народная Республика)
|
Д
|
Д
|
Huihui
|
Женский
|
Английский (США)
|
Д
|
Д
|
Zira
|
Женский
|
Английский (США)
|
Д
|
Д
|
David
|
Мужской
|
Английский (Великобритания)
|
Д
|
Д
|
Hazel
|
Женский
|
Французский (Франция)
|
Д
|
Д
|
Hortense
|
Женский
|
Немецкий (Германия)
|
Д
|
Д
|
Heera
|
Женский
|
Итальянский (Италия)
|
Д
|
Н
|
Elsa
|
Женский
|
Японский (Япония)
|
Д
|
Д
|
Haruka
|
Женский
|
Корейский (Корея)
|
Д
|
Д
|
Heami
|
Женский
|
Польский (Польша)
|
Д
|
Н
|
Paulina
|
Женский
|
Португальский (Бразилия)
|
Д
|
Н
|
Maria
|
Женский
|
Русский (Россия)
|
Д
|
Н
|
Ирина
|
Женский
|
Испанский (Мексика)
|
Д
|
Н
|
Sabina
|
Женский
|
Испанский (Испания)
|
Д
|
Д
|
Helena
|
Женский
|
Сторонние языки для текстовой речью
Другие языки для преобразования текста в речь можно приобрести у следующих сторонних поставщиков:
Примечание: Эта информация представлена исключительно для ознакомления. Корпорация Майкрософт не рекламирует стороннее программное обеспечение, а также не занимается поддержкой по вопросам его установки и использования. Для справки по указанным продуктам обратитесь к соответствующему производителю.
Языки для преобразования текста в речь от производителей ПО с открытым кодом
Бесплатные языки для преобразования текста в речь доступны на сайте компании eSpeak, производящей программное обеспечение с открытым кодом. Эти языки работают в Windows 7, однако в Windows 8, Windows 8.1 и Windows 10 могут возникнуть проблемы с поддержкой. Дополнительные сведения см. в списке всех языков и кодов eSpeak.
Скачивание языков eSpeak
-
Перейдите по ссылке http://espeak.sourceforge.net/download.html.
-
Скачайте установщик для Windows setup_espeak-1. 48.04.exe.
-
Когда файл загрузится, запустите его и нажмите кнопку Далее в первом окне.
-
Укажите путь установки и нажмите кнопку Далее.
-
Введите двухбуквенные коды для необходимых языков и флагов. Например, если вам нужно задействовать преобразование текста в речь для английского, испанского, польского, шведского и чешского языков, заполните поля следующим образом:
Чтобы использовать альтернативные голоса для языка, можно выбрать дополнительные команды для изменения различных атрибутов голоса и произношения. Дополнительные сведения см. в http://espeak.sourceforge.net/voices.html. Предварительно заранее заданные варианты голоса можно применить к любому из языков, нажав знак «плюс»(+)и его имя. Варианты для голосов мужчин: +m1, +m2, +m3, +m4, +m5, +m6и +m7. Варианты голосов для женщин: +f1, +f2, +f3, +f4и +f5. Вы также можете выбрать дополнительные голосовые эффекты, например +croak или +whisper.
-
Дважды нажмите кнопку Далее, а затем щелкните Установить.
Топ-17 синтезаторов речи | Озвучка текста онлайн, на телефоне и ПК
Проверить, как правильно звучит слово, прочитать e-mail за рулём или озвучить текст робота в фильме – типичные ситуации, в которых вам может понадобиться синтезатор речи. Многие платные и бесплатные программы осуществляют перевод текста в речь на всех платформах, но не все они подходят русскоязычным пользователям. Озвучка текста на русском языке поддерживается далеко не всеми зарубежными ПО и онлайн-ресурсами. Да и их разработчики не всегда могут запрограммировать орфоэпические и интонационные нюансы.
Перевод текста в речь на русском языке: лучшие программы
В этой подборке – только проверенные программы для озвучки, которые зачитают ваш текст без ошибок. В некоторых из них озвучивание текста доступно только в режиме онлайн, но есть и те, в которых предусмотрена функция экспорта файла для дальнейшего использования. Как правило, платные программы обладают расширенными возможностями настройки, а начитанный текст на выходе звучит более естественно.
Мобильные синтезаторы
Синтезатор речи Google
Собственное мультифункциональное приложение Google для перевода текста в речь. Именно оно отвечает за озвучивание текста в переводчике и чтение аудиокниг в Google Play, а также во многих других программах Play Маркета.
SpeechText
Это приложение в первую очередь для тех, кто хочет узнать правильное произношение иностранных слов. Не лучший вариант ввиду ограниченности функционала. Но в качестве подспорья при изучении языка его вполне хватает.
Болтун
Удобное приложение для устройств на Андроиде. Может озвучить текст SMS, электронное письмо, статью в браузере – любые тексты, которые вы скопируете в буфер обмена или введете прямо в приложение.
Voice Aloud Reader
Еще одно приложение, которое можно скачать в Google Play. Программа работает с загруженными текстовыми файлами и сохраненными текстами. Русский язык поддерживается. Можно выбирать интонацию и скорость чтения.
Онлайн-синтезаторы
Acapela
Один из самых известных синтезаторов речи. Разговаривает на 30 языках. Текст на русском языке вам могут зачитать мужским голосом Николай, а женским – Алёна. На бесплатное использование есть ограничение: в браузерной версии можно воспроизвести не больше 300 символов. Для использования полного функционала необходимо скачать платную программу – она доступна на Windows, Linux, Mac, а также на мобильных OC Android и IOS.
Text-to-Speech
Синтезатор речи с продвинутыми настройками: можно задавать скорость речи, размер шрифта и машинный перевод. Доступна даже экранная клавиатура для людей с ограниченными возможностями. На русском текст может зачитать здесь только женский голос.
Oddcast
На этом портале вам тоже не дадут озвучить более 300 символов разом. Зато русский язык поддерживается тремя голосами: одним мужским (Дмитрием) и двумя женскими (Милиной и Ольгой). Но главная фишка портала в том, что текст вам зачитывают анимированные дикторы. За это можно простить программе даже не самый удобный интерфейс.
Linguatec
Как и в случае с Acapela, больше определенного количества символов (здесь – 250) бесплатная версия вам озвучить не разрешит. Но зато с этой задачей она справляется очень неплохо. Здесь так же доступны два голоса – мужской (Юрий) и женский (Милена).
Ispeech
Простейший бесплатный инструмент для озвучивания коротких текстов размером не больше твита – максимум 150 символов. Зато полученный результат можно сохранить на компьютере. Русский язык поддерживается.
PilliApp
Программа не разговаривает больше 60 секунд, поэтому разработчики рекомендуют делить длинный текст на несколько строк. За русский язык отвечают голоса Юрия и Елены. Сайт программы явно переведен в автоматическом режиме, поэтому не удивляйтесь легкой странности текста на главной странице.
2уха
Отечественный онлайн-софт с возможностью расширенных настроек: можно отрегулировать скорость чтения, высоту тона, громкость и чтение знаков препинания. Выбор невелик – только Александр или Елена. Зато можно не копировать текст в окошко, а сразу загрузить в программу файл Microsoft Word. Минус этого сервиса в том, что мгновенно озвучить текст не получится: придется подождать в очереди на конвертацию.
ПК синтезаторы
Robot Talk
Бесплатное приложение магазина Windows. В программе всего 5 голосов: 3 мужских и 2 женских. Можно изменять тембр голоса и скорость речи. Полученный на выходе аудиофайл можно сохранить.
Балаболка
Умная и непривередливая программа, которая читает тексты практически любых форматов – DOC, PDF, PPTX, XLS и многих других. Для озвучки используются движки синтезаторов речи, которые уже присутствуют в вашем компьютере. Помимо распознавания текста в речь, софт предлагает проверку орфографии. По окончании работы аудиофайл можно экспортировать.
Говорилка
Словари произношений в этой программе постоянно пополняются, поэтому орфоэпических ошибок можно не бояться. Считывает текстовые файлы и прокручивает текст на экране, как телевизионный суфлер. Ограничений по объему текстов нет, поэтому это отличный вариант для тех, кто предпочитает аудиокниги электронным: достаточно загрузить книгу в программу – и можно слушать.
2nd Speech Center
Предельно понятный интерфейс и все та же возможность экспорта файла в MP3 и WAV. Программа поддерживает файлы в формате TXT, DOC, PDF, EML, RTF, HTM, HTML. Можно регулировать скорость получившегося текста – удобно, чтобы послушать учебные материалы на иностранном языке.
Альтернативные синтезаторы
Яндекс Переводчик
Как мы уже знаем благодаря боту «Алиса», у софта «Яндекса» все хорошо с распознаванием речи. Преобразование текста в речь в интерфейсе их переводчика тоже работает на ура. Никаких дополнительных настроек и возможностей экспорта не предусмотрено, но это стандартная практика для приложений-переводчиков.
Google Переводчик
Аналогично своему российскому коллеге, этот переводческий инструмент выполняет базовые задачи по озвучке текста. Подходит для сверки ударений. Мобильное приложение этого сервиса нередко выручает в путешествиях: достаточно напечатать или сказать в динамик нужную фразу, чтобы софт тут же озвучил ее перевод вашему иностранному собеседнику.
Как обработать аудиофайлы
С любой аудиодорожкой, даже если это сохраненный файл из синтезатора речи, можно сделать много крутых вещей: улучшить звук, ускорить его или замедлить, проиграть обратно, убрать шумы, добавить аудиоэффекты или совместить с музыкальным фоном. И, конечно, можно наложить аудиотрек на видео для озвучки клипа. Большой простор для творчества со звуком и видеозаписями дает программа Movavi Video Suite. В ней можно не только работать с готовыми аудиофайлами, но и записать собственный аудиотрек или закадровый комментарий для видео, а также захватить звук с экрана компьютера и потом обработать его, если нужно. Movavi Video Suite включает также возможность конвертировать любые медиаформаты.
5 лучших синтезаторов речи с русскими голосами
Все чаще в повседневной жизни стали использовать синтезаторы речи. Синтезаторы речи, как становится видно уже по одному названию, осуществляют синтез речи, то есть форматируют письменный текст в устный.
Благодаря этому можно учить новые иностранные слова с правильным произношением, читать книги не отвлекаясь от своих дел или озвучить текст презентации реалистичными голосами. Изначально разработкой таких программ занимались организации, специализирующиеся на технике для людей с проблемами зрения.
Сейчас же, любой пользователь может скачать одну из программ, установить ее на свой компьютер или телефон и синтезировать речь, в том числе и русскую.
Для этого было разработано множество различных программ, приложенный и даже целых систем. К сожалению, не все из них предназначены для русскоязычной аудитории.
Содержание статьи:
Список синтезаторов речи:
1.
Acapela
Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена.
Женский голос появился значительно позднее мужского и является более усовершенствованным.
Прослушать, как звучат голоса, можно на официальном сайте программы. Достаточно лишь выбрать язык и голос, и набрать свой небольшой текст.
Кстати, для мужского голоса был разработан отдельный словарь ударений, что позволяет достичь еще большей четкости произношения.
Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.
Программа платная, скачать ее можно с официального сайта Acapela.
2. Vokalizer
Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance.
Голос звучит очень естественно, речь чистая. Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно.
Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений. Прекрасно подходит для чтения книг.
Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.
3. RHVoice
Синтезатор речи RHVoice был разработан Ольгой Яковлевой. Программа озвучивает русские тексты тремя голосами: Елена, Ирина и Александр. Подробнее об установке и применении, а также прослушать голоса Вы сможете в прошлой статье
Код синтезатора открыт для всех, программы же абсолютно бесплатны.
RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA.
Все версии можно скачать с официального сайта разработчика.
4. ESpeak
Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.
eSpeak можно установить под следующие операционные системы:
- Microsoft Windows,
- Mac OS X,
- Linux,
- RISC OS
Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно.
А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.
Для разработчиков будет интересно узнать, что C++ код программы доступен в сети. Скачать программу, а также посмотреть ее код можно на официальном сайте.
5. Festival
Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете.
Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.
Русский голос представлен в одном варианте, но звучание довольно хорошее и ясное, без акцента и с правильной расстановкой ударений.
К сожалению, программа пока может быть установлена только в среде API, Linux. Также есть модуль для работы в Mac OS, но русский язык пока поддерживается не очень хорошо.
Вместо послесловия
Стоит отметить, что любой из вышеприведённых синтезаторов отлично исполнен, но выбор программы индивидуален. Всё объясняется различным произношением голосов. Смею посоветовать второй вариант с голосом Милена. ОЧень выразительный голос, насыщенное звучание и приятная во всех смыслах интонация голоса!
Синтезатор RHVoice
Разработчик синтезатора RHVoice и контакты
Голоса от RHVoiceLab
Раздел голосов RHVoice Lab
К списку
Старые RHVoice на Python3
Старые версии:
- RHVoice V.04.A2
- RHVoice V.02.94
и
адаптированные под Python3 для использования на NVDA 2019.3 и новее.
Старые версии RHVoice на Python3
К списку
Комплект RHVoice-V.1.2.3-Nvda-addon Раздельные компоненты
Представленный пакет содержит в себе восемь языков и семнадцать голосовых модулей в формате «Nvda-addon» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.2.3, можно скачать одним архивом «zip» с Drive.google.com.
- Дата релиза: 25 Ноябрь 2020
Представленая версия RHVoice 1.2.3 адаптирована под новую версию NVDA 2019.3 и выше.
- MinimumNVDAVersion = 2012.2.0
- LastTestedNVDAVersion = 2019.3.0
Содержимое архива:
- General\RHVoice-1.2.3.nvda-addon
- Brazilian-Portuguese\RHVoice-Brazilian-Portuguese-voice-Leticia-F123-4.6.6.nvda-addon
- English\RHVoice-language-English-2.5.1.nvda-addon
- English\RHVoice-voice-English-Alan-4.0.1.nvda-addon
- English\RHVoice-voice-English-Bdl-4.1.2.nvda-addon
- English\RHVoice-voice-English-Clb-4.0.1.nvda-addon
- English\RHVoice-voice-English-Slt-4.0.1.nvda-addon
- Esperanto\RHVoice-voice-Esperanto-Spomenka-4.0.1.nvda-addon
- Georgian\RHVoice-voice-Georgian-Natia-4.0.1.nvda-addon
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-4. 0.1.nvda-addon
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-4.0.1.nvda-addon
- Russian\RHVoice-voice-Russian-Aleksandr-4.2.6.nvda-addon
- Russian\RHVoice-voice-Russian-Anna-4.1.6.nvda-addon
- Russian\RHVoice-voice-Russian-Arina-4.0.7.nvda-addon
- Russian\RHVoice-voice-Russian-Artemiy-4.0.6.nvda-addon
- Russian\RHVoice-voice-Russian-Elena-4.2.6.nvda-addon
- Russian\RHVoice-voice-Russian-Irina-4.1.6.nvda-addon
- Russian\RHVoice-voice-Russian-Pavel-4.0.7.nvda-addon
- Tatar\RHVoice-voice-Tatar-Talgat-4.0.6.nvda-addon
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-4.1.7.nvda-addon
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-4.0.7.nvda-addon
- Размер архива: около 195.7 MB.
- Далее
Скачать RhVoice-v.1.2.3-Nvda.zip с drive.google.com
К списку
Комплект RHVoice-V.1.2.3-SAPI5 Раздельные компоненты
Представленный пакет содержит в себе восемь языков и семнадцать голосовых модулей в формате «Setup. exe» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.2.3, можно скачать одним архивом «zip» с Drive.google.com.
- Дата релиза: 25 Ноябрь 2020
Содержание архива:
- Brazilian-Portuguese\RHVoice-Brazilian-Portuguese-voice-Leticia-F123-v4.6.11-setup.exe
- English\RHVoice-language-English-v2.5.2-setup.msi
- English\RHVoice-voice-English-Alan-v4.0.9-setup.exe
- English\RHVoice-voice-English-Bdl-v4.1.9-setup.exe
- English\RHVoice-voice-English-Clb-v4.0.9-setup.exe
- English\RHVoice-voice-English-Slt-v4.0.9-setup.exe
- Esperanto\RHVoice-voice-Esperanto-Spomenka-v4.0.9-setup.exe
- Georgian\RHVoice-voice-Georgian-Natia-v4.0.5-setup.exe
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-v4.0.9-setup.exe
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-v4.0.9-setup.exe
- Russian\RHVoice-voice-Russian-Aleksandr-v4.2.11-setup.exe
- Russian\RHVoice-voice-Russian-Anna-v4. 1.11-setup.exe
- Russian\RHVoice-voice-Russian-Artemiy-v4.0.11-setup.exe
- Russian\RHVoice-voice-Russian-Elena-v4.2.11-setup.exe
- Russian\RHVoice-voice-Russian-Irina-v4.1.11-setup.exe
- Tatar\RHVoice-voice-Tatar-Talgat-v4.0.10-setup.exe
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-v4.1.11-setup.exe
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-v4.0.11-setup.exe
Размер архива: около 204 MB
- Далее
Скачать RhVoice-v.1.2.3-Sapi5.zip с drive.google.com
К списку
Комплект RHVoice-V.1.2.3-Android Раздельные компоненты APk для Off-line установки
Представленный пакет содержит в себе пять языковых модулей и тринадцать голосовых модулей в формате «APK» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.2.3, можно скачать одним архивом «zip» с Drive.google.com.
Содержание архива:
- General\RHVoice-v1.2.3.apk
- Brazilian-Portuguese\RHVoice-Brazilian-Portuguese-voice-Leticia-F123-v4. 6.apk
- Brazilian-Portuguese\RHVoice-F123-Brazilian-Portuguese-language-v1.15.apk
- English\RHVoice-language-English-v2.5.apk
- English\RHVoice-voice-English-Alan-v4.0.apk
- English\RHVoice-voice-English-Bdl-v4.1.apk
- English\RHVoice-voice-English-Clb-v4.0.apk
- English\RHVoice-voice-English-Slt-v4.0.apk
- Esperanto\RHVoice-language-Esperanto-v1.2.apk
- Esperanto\RHVoice-voice-Esperanto-Spomenka-v4.0.apk
- Kyrgyz\RHVoice-language-Kyrgyz-v1.16.apk
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-v4.0.apk
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-v4.0.apk
- Russian\RHVoice-language-Russian-v2.6.apk
- Russian\RHVoice-voice-Russian-Aleksandr-v4.2.apk
- Russian\RHVoice-voice-Russian-Anna-v4.1.apk
- Russian\RHVoice-voice-Russian-Elena-v4.2.apk
- Russian\RHVoice-voice-Russian-Irina-v4.1.apk
- Ukrainian\RHVoice-language-Ukrainian-v1.9.apk
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-v4.1. apk
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-v4.0.apk
- Дата релиза: 25 Ноябрь 2020
Содержимое архива:
К списку
Комплект RHVoice-V.1.2.0-Nvda-addon Раздельные компоненты
Представленный пакет содержит в себе восемь языков и семнадцать голосовых модулей в формате «Nvda-addon» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.2.0, можно скачать одним архивом «zip» с Drive.google.com.
- Дата релиза: 28 Февраль 2020
Представленая версия RHVoice 1.2.0 адаптирована под новую версию NVDA 2019.3 и выше.
Содержимое архива:
- !General\RHVoice-1.2.0.nvda-addon
- Brazilian-Portuguese\RHVoice-Brazilian-Portuguese-voice-Leticia-F123-4.6.5.nvda-addon
- English\RHVoice-language-English-2.5.1.nvda-addon
- English\RHVoice-voice-English-Alan-4.0.1(1).nvda-addon
- English\RHVoice-voice-English-Alan-4. 0.1.nvda-addon
- English\RHVoice-voice-English-Clb-4.0.1.nvda-addon
- English\RHVoice-voice-English-Slt-4.0.1.nvda-addon
- Esperanto\RHVoice-voice-Esperanto-Spomenka-4.0.1.nvda-addon
- Georgian\RHVoice-voice-Georgian-Natia-4.0.1.nvda-addon
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-4.0.1.nvda-addon
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-4.0.1.nvda-addon
- Russian\RHVoice-voice-Russian-Aleksandr-4.2.5.nvda-addon
- Russian\RHVoice-voice-Russian-Anna-4.1.5.nvda-addon
- Russian\RHVoice-voice-Russian-Artemiy-4.0.6.nvda-addon
- Russian\RHVoice-voice-Russian-Elena-4.2.5.nvda-addon
- Russian\RHVoice-voice-Russian-Irina-4.1.5.nvda-addon
- Tatar\RHVoice-voice-Tatar-Talgat-4.0.1.nvda-addon
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-4.1.6.nvda-addon
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-4.0.6.nvda-addon
- Размер архива: около 177. 7 MB.
- Далее
Скачать RhVoice-v.1.2.0-Nvda.zip с drive.google.com
К списку
Комплект RHVoice-V.1.2.0-Sapi5 Раздельные компоненты
Представленный пакет содержит в себе восемь языков и семнадцать голосовых модулей в формате «Setup.exe» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.2.0, можно скачать одним архивом «zip» с Drive.google.com.
- Дата релиза: 28 Февраль 2020
Содержание архива:
- Brazilian\RHVoice-Brazilian-Portuguese-voice-Leticia-F123-v4.6.9-setup.exe
- English\RHVoice-language-English-v2.5.2-setup.msi
- English\RHVoice-voice-English-Alan-v4.0.9-setup.exe
- English\RHVoice-voice-English-Bdl-v4.1.9-setup.exe
- English\RHVoice-voice-English-Clb-v4.0.9-setup.exe
- English\RHVoice-voice-English-Slt-v4.0.9-setup.exe
- Esperanto\RHVoice-voice-Esperanto-Spomenka-v4.0.9-setup.exe
- Georgian\RHVoice-voice-Georgian-Natia-v4.0.5-setup.exe
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-v4.0.9-setup.exe
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-v4.0.9-setup.exe
- Russian\RHVoice-voice-Russian-Aleksandr-v4.2.9-setup.exe
- Russian\RHVoice-voice-Russian-Anna-v4.1.9-setup.exe
- Russian\RHVoice-voice-Russian-Artemiy-v4.0.11-setup.exe
- Russian\RHVoice-voice-Russian-Elena-v4.2.9-setup.exe
- Russian\RHVoice-voice-Russian-Irina-v4.1.9-setup.exe
- Tatar\RHVoice-voice-Tatar-Talgat-v4.0.5-setup.exe
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-v4.1.10-setup.exe
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-v4.0.10-setup.exe
Размер архива: около 204 MB
- Далее
Скачать RhVoice-v.1.2.0-Sapi5.zip с drive.google.com
К списку
Комплект RHVoice-V.1.2.0-Android Раздельные компоненты APk для Off-line установки
Внимание! Русский голос Артемий ещё не выпущен.
Представленный пакет содержит в себе пять языковых модулей и тринадцать голосовых модулей в формате «APK» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.2.0, можно скачать одним архивом «zip» с Drive.google.com.
Содержание архива:
- !General\RHVoice-v1.2.1.apk
- !General\RHVoice-v1.2.2.apk
- Brazilian\RHVoice-Brazilian-Portuguese-voice-Leticia-F123-v4.6.apk
- Brazilian\RHVoice-F123-Brazilian-Portuguese-language-v1.14.apk
- English\RHVoice-language-English-v2.5.apk
- English\RHVoice-voice-English-Alan-v4.0.apk
- English\RHVoice-voice-English-Bdl-v4.1.apk
- English\RHVoice-voice-English-Clb-v4.0.apk
- English\RHVoice-voice-English-Slt-v4.0.apk
- Esperanto\RHVoice-language-Esperanto-v1.2.apk
- Esperanto\RHVoice-voice-Esperanto-Spomenka-v4.0.apk
- Kyrgyz\RHVoice-language-Kyrgyz-v1.16.apk
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-v4.0.apk
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-v4.0.apk
- Russian\RHVoice-language-Russian-v2.5.apk
- Russian\RHVoice-voice-Russian-Aleksandr-v4.2.apk
- Russian\RHVoice-voice-Russian-Anna-v4.1.apk
- Russian\RHVoice-voice-Russian-Elena-v4.2.apk
- Russian\RHVoice-voice-Russian-Irina-v4.1.apk
- Ukrainian\RHVoice-language-Ukrainian-v1.8.apk
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-v4.1.apk
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-v4.0.apk
- Дата релиза: 28 Февраль 2020
Содержимое архива:
К списку
Комплект RHVoice-V.1.0.2-Nvda-addon Раздельные компоненты
Представленный пакет содержит в себе восемь языков и шестнадцать голосовых модулей в формате «Nvda-addon» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.0.2, можно скачать одним архивом «zip» с Drive.google.com.
- Дата релиза: 21 Декабрь 2019
Представленая версия RHVoice 1.0.2 адаптирована под новую версию NVDA 2019.3.
Пакет RHVoice переведен на Python 3 с Python 2.
Содержимое архива:
- !General\RHVoice-1.0.2.nvda-addon
- Brazilian-Portuguese\RHVoice-Brazilian-Portuguese-voice-Leticia-VOISS-4.4.1.nvda-addon
- English\RHVoice-language-English-2.5.1.nvda-addon
- English\RHVoice-voice-English-Alan-4.0.1.nvda-addon
- English\RHVoice-voice-English-Bdl-4.1.2.nvda-addon
- English\RHVoice-voice-English-Clb-4.0.1.nvda-addon
- English\RHVoice-voice-English-Slt-4.0.1.nvda-addon
- Esperanto\RHVoice-voice-Esperanto-Spomenka-4.0.1.nvda-addon
- Georgian\RHVoice-voice-Georgian-Natia-4.0.1.nvda-addon
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-4.0.1.nvda-addon
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-4.0.1.nvda-addon
- Russian\RHVoice-voice-Russian-Aleksandr-4.1.1.nvda-addon
- Russian\RHVoice-voice-Russian-Anna-4.0.1.nvda-addon
- Russian\RHVoice-voice-Russian-Elena-4.1.1.nvda-addon
- Russian\RHVoice-voice-Russian-Irina-4.0.1.nvda-addon
- Tatar\RHVoice-voice-Tatar-Talgat-4.0.1.nvda-addon
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-4.1.2.nvda-addon
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-4.0.2.nvda-addon
- Размер архива: около 168.7 MB.
- Далее
Скачать RhVoice-v.1.0.2-Nvda.zip с drive.google.com
К списку
Комплект RHVoice-V.1.0.2-Sapi5 Раздельные компоненты
Представленный пакет содержит в себе восемь языков и шестнадцать голосовых модулей в формате «Setup.exe» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.0.2, можно скачать одним архивом «zip» с Drive.google.com.
- Дата релиза: 21 Декабрь 2019
Содержание архива:
- Brazilian\RHVoice-Brazilian-Portuguese-voice-Leticia-VOISS-v4.4.5-setup.exe
- English\RHVoice-language-English-v2.5.1-setup.msi
- English\RHVoice-voice-English-Alan-v4.0.5-setup.exe
- English\RHVoice-voice-English-Bdl-v4.1.6-setup.exe
- English\RHVoice-voice-English-Clb-v4.0.5-setup.exe
- English\RHVoice-voice-English-Slt-v4.0.5-setup.exe
- Esperanto\RHVoice-voice-Esperanto-Spomenka-v4.0.5-setup.exe
- Georgian\RHVoice-voice-Georgian-Natia-v4.0.5-setup.exe
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-v4.0.5-setup.exe
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-v4.0.5-setup.exe
- Russian\RHVoice-voice-Russian-Aleksandr-v4.1.5-setup.exe
- Russian\RHVoice-voice-Russian-Anna-v4.0.5-setup.exe
- Russian\RHVoice-voice-Russian-Elena-v4.1.5-setup.exe
- Russian\RHVoice-voice-Russian-Irina-v4.0.5-setup.exe
- Tatar\RHVoice-voice-Tatar-Talgat-v4.0.5-setup.exe
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-v4.1.6-setup.exe
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-v4.0.6-setup.exe
Размер архива: около 187.7 MB
- Далее
Скачать RhVoice-v.1.0.2-Sapi5.zip с drive.google.com
К списку
Комплект RHVoice-V.1.0.2-Android Раздельные компоненты APk для Off-line установки
Представленный пакет содержит в себе пять языковых модулей и тринадцать голосовых модулей в формате «APK» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.0.2, можно скачать одним архивом «zip» с Drive.google.com.
Содержание архива:
- RHVoice-v1.0.1.apk
- Brazilian\RHVoice-Brazilian-Portuguese-voice-Leticia-VOISS-v4.4.apk
- Brazilian\RHVoice-VOISS-Brazilian-Portuguese-language-v1.10.apk
- English\RHVoice-language-English-v2.5.apk
- English\RHVoice-voice-English-Alan-v4.0.apk
- English\RHVoice-voice-English-Bdl-v4.1.apk
- English\RHVoice-voice-English-Clb-v4.0.apk
- English\RHVoice-voice-English-Slt-v4.0.apk
- Esperanto\RHVoice-language-Esperanto-v1.2.apk
- Esperanto\RHVoice-voice-Esperanto-Spomenka-v4.0.apk
- Kyrgyz\RHVoice-language-Kyrgyz-v1.16.apk
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-v4.0.apk
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-v4.0.apk
- Russian\RHVoice-language-Russian-v2.4.apk
- Russian\RHVoice-voice-Russian-Aleksandr-v4.1.apk
- Russian\RHVoice-voice-Russian-Anna-v4.0.apk
- Russian\RHVoice-voice-Russian-Elena-v4.1.apk
- Russian\RHVoice-voice-Russian-Irina-v4.0.apk
- Ukrainian\RHVoice-language-Ukrainian-v1.6.apk
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-v4.1.apk
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-v4.0.apk
- Дата релиза: 21 Декабрь 2019
Содержимое архива:
К списку
Комплект RHVoice-V.1.0.0-Nvda-addon Раздельные компоненты
Представленный пакет содержит в себе восемь языков и шестнадцать голосовых модулей в формате «Nvda-addon» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.0.0, можно скачать одним архивом «zip» с Drive.google.com.
В данной версии был добавлен новый бразильский-португальский женский голос Leticia.
Также разработчик объединил языковые модули с голосовыми модулями, исключение сделано для английского языка.
Изменение для английского языка: Языковой пакет,
версия 2.5.1 (Нужно устанавливать только если вы используете так называемый псевдо-английский режим с другими языками и не устанавливаете ни одного из
английских голосов)
Содержимое архива:
- 1. General/RHVoice-1.0.0.nvda-addon
- Brazilian-Portuguese/RHVoice-Brazilian-Portuguese-voice-Leticia-VOISS-4.4.1.nvda-addon
- English/RHVoice-language-English-2.5.1.nvda-addon
- English/RHVoice-voice-English-Alan-4.0.1.nvda-addon
- English/RHVoice-voice-English-Bdl-4.0.1(1).nvda-addon
- English/RHVoice-voice-English-Bdl-4.0.1.nvda-addon
- English/RHVoice-voice-English-Clb-4.0.1.nvda-addon
- English/RHVoice-voice-English-Slt-4.0.1.nvda-addon
- Esperanto/RHVoice-voice-Esperanto-Spomenka-4.0.1.nvda-addon
- Georgian/RHVoice-voice-Georgian-Natia-4.0.1.nvda-addon
- Kyrgyz/RHVoice-voice-Kyrgyz-Azamat-4.0.1.nvda-addon
- Kyrgyz/RHVoice-voice-Kyrgyz-Nazgul-4.0.1.nvda-addon
- Russian/RHVoice-voice-Russian-Aleksandr-4.1.1.nvda-addon
- Russian/RHVoice-voice-Russian-Anna-4.0.1.nvda-addon
- Russian/RHVoice-voice-Russian-Elena-4.1.1.nvda-addon
- Russian/RHVoice-voice-Russian-Irina-4.0.1.nvda-addon
- Tatar/RHVoice-voice-Tatar-Talgat-4.0.1.nvda-addon
- Ukrainian/RHVoice-voice-Ukrainian-Anatol-4.1.1.nvda-addon
- Ukrainian/RHVoice-voice-Ukrainian-Natalia-4.0.1.nvda-addon
- Размер архива: около 175 MB.
- Далее
Скачать RhVoice-v.1.0.0-Nvda.zip с drive.google.com
К списку
Комплект RHVoice-V.1.0.0-Sapi5 Раздельные компоненты
Представленный пакет содержит в себе восемь языков и шестнадцать голосовых модулей в формате «Setup.exe» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.0.0, можно скачать одним архивом «zip» с Drive.google.com.
- Дата релиза: 08 Сентябрь 2019
В данной версии был добавлен новый бразильский-португальский женский голос Leticia.
Также разработчик объединил языковые модули с голосовыми модулями, исключение сделано для английского языка.
Изменение для английского языка: Языковой пакет,
версия 2.5.1 (Нужно устанавливать только если вы используете так называемый псевдо-английский режим с другими языками и не устанавливаете ни одного из
английских голосов)
Содержание архива:
- Brazilian-Portuguese\RHVoice-Brazilian-Portuguese-voice-Leticia-VOISS-v4.4.5-setup.exe
- English\RHVoice-language-English-v2.5.1-setup.msi
- English\RHVoice-voice-English-Bdl-v4.0.5-setup.exe
- English\RHVoice-voice-English-Clb-v4.0.5-setup.exe
- English\RHVoice-voice-English-Slt-v4.0.5-setup.exe
- Esperanto\RHVoice-voice-Esperanto-Spomenka-v4.0.5-setup.exe
- Georgian\RHVoice-voice-Georgian-Natia-v4.0.5-setup.exe
- Kyrgyz\RHVoice-voice-Kyrgyz-Azamat-v4.0.5-setup.exe
- Kyrgyz\RHVoice-voice-Kyrgyz-Nazgul-v4.0.5-setup.exe
- Russian\RHVoice-voice-Russian-Aleksandr-v4.1.5-setup.exe
- Russian\RHVoice-voice-Russian-Anna-v4.0.5-setup.exe
- Russian\RHVoice-voice-Russian-Elena-v4.1.5-setup.exe
- Russian\RHVoice-voice-Russian-Irina-v4.0.5-setup.exe
- Tatar\RHVoice-voice-Tatar-Talgat-v4.0.5-setup.exe
- Ukrainian\RHVoice-voice-Ukrainian-Anatol-v4.1.5-setup.exe
- Ukrainian\RHVoice-voice-Ukrainian-Natalia-v4.0.5-setup.exe
English\RHVoice-voice-English-Alan-v4.0.5-setup.exe
- Размер архива: около 188 MB
- Далее
Скачать RhVoice-v.1.0.0-Sapi5.zip с drive.google.com
К списку
Комплект RHVoice-V.1.0.0-Android Раздельные компоненты APk для Off-line установки
Представленный пакет содержит в себе пять языковых модулей и тринадцать голосовых модулей в формате «APK» и
выполнен в виде раздельных модулей, для выборочной установки.
Все файлы представленной версии RHVoice 1.0.0, можно скачать одним архивом «zip» с Drive.google.com.
В отличии от комплектов для Nvda и Windows-Sapi5, в данном наборе нет языков:
- Brazilian-Portuguese
- Georgian
- Tatar
Изменение для английского языка: Языковой пакет,
версия 2.5.1 (Нужно устанавливать только если вы используете так называемый псевдо-английский режим с другими языками и не устанавливаете ни одного из
английских голосов)
- Дата релиза: 08 Сентябрь 2019
Содержимое архива:
- 1. General/RHVoice-v1.0.0.apk
- English/RHVoice-language-English-v2.5.apk
- English/RHVoice-voice-English-Alan-v4.0.apk
- English/RHVoice-voice-English-Bdl-v4.0.apk
- English/RHVoice-voice-English-Clb-v4.0.apk
- English/RHVoice-voice-English-Slt-v4.0.apk
- Esperanto/RHVoice-language-Esperanto-v1.2.apk
- Esperanto/RHVoice-voice-Esperanto-Spomenka-v4.0.apk
- Kyrgyz/RHVoice-language-Kyrgyz-v1.16.apk
- Kyrgyz/RHVoice-voice-Kyrgyz-Azamat-v4.0.apk
- Kyrgyz/RHVoice-voice-Kyrgyz-Nazgul-v4.0.apk
- Russian/RHVoice-language-Russian-v2.4.apk
- Russian/RHVoice-voice-Russian-Aleksandr-v4.1.apk
- Russian/RHVoice-voice-Russian-Anna-v4.0.apk
- Russian/RHVoice-voice-Russian-Elena-v4.1.apk
- Russian/RHVoice-voice-Russian-Irina-v4.0.apk
- Ukrainian/RHVoice-language-Ukrainian-v1.5.apk
- Ukrainian/RHVoice-voice-Ukrainian-Anatol-v4.1.apk
- Ukrainian/RHVoice-voice-Ukrainian-Natalia-v4.0.apk
К списку
Комплект RHVoice-V.0.7.1-Nvda-addon Раздельные компоненты
Комплект RHVoice-V.0.7.1-Sapi5 Раздельные компоненты
Представленный пакет синтезатора RHVoice для Windows содержит в себе семь языковых пакетов и пятнадцать голосовых модулей.Комплект выполнен в виде раздельных модулей, для выборочной
установки.
В архиве 7 языков и 15 голосов.
Также как и для Nvda, здесь добавлен новый женский украинский голос Наталья.
- Дата релиза: 04 Август 2018
- Размер архива 122 MB
- Далее
Скачать с drive.google.com
К списку
Комплект RHVoice-voices-Bundle-V.0.7.1 Nvda-addon всё в одном
Представленный пакет синтезатора RHVoice для Windows содержит в себе семь языковых пакетов и четырнадцать голосовых модулей.Комплект выполнен в виде «Всё в одном» для установки в несколько кликов .
- Скачать дополнение с drive.google.com
- Размер: 125 MБ.
- Имя файла: RHVoice-voices-bundle-V.0.7.1.nvda-addon
- Сборка: не официальная
- Далее
К списку
Комплект RHVoice-V.0.7.0-Nvda-addon Раздельные компоненты
Представленный пакет содержит в себе семь языков в формате Nvda-addon и
выполнен в виде раздельных модулей, для выборочной установки.
- Дата релиза: 19 Май 2018
Все дополнения представленной версии RHVoice 0.7.0, можно скачать одним архивом с Cloud.mail.ru
Содержимое архива:
Разложено в архиве по трём папкам:
- 1. General
- 2. Language
- 3. Voice
Разложены модули из этого списка:
- RHVoice-0.7.0.nvda-addon
- RHVoice-language-English-2.4.nvda-addon
- RHVoice-language-Esperanto-1.2.nvda-addon
- RHVoice-language-Georgian-1.8.nvda-addon
- RHVoice-language-Kyrgyz-1.14.nvda-addon
- RHVoice-language-Russian-2.3.nvda-addon
- RHVoice-language-Tatar-1.8.nvda-addon
- RHVoice-language-Ukrainian-1.3.nvda-addon
- RHVoice-voice-English-Alan-4.0.nvda-addon
- RHVoice-voice-English-Bdl-4.0.nvda-addon
- RHVoice-voice-English-Clb-4.0.nvda-addon
- RHVoice-voice-English-Slt-4.0.nvda-addon
- RHVoice-voice-Esperanto-Spomenka-4.0.nvda-addon
- RHVoice-voice-Georgian-Natia-4.0.nvda-addon
- RHVoice-voice-Kyrgyz-Azamat-4.0.nvda-addon
- RHVoice-voice-Kyrgyz-Nazgul-4.0.nvda-addon
- RHVoice-voice-Russian-Aleksandr-4.1.nvda-addon
- RHVoice-voice-Russian-Anna-4.0.nvda-addon
- RHVoice-voice-Russian-Elena-4.1.nvda-addon
- RHVoice-voice-Russian-Irina-4.0.nvda-addon
- RHVoice-voice-Tatar-Talgat-4.0.nvda-addon
- RHVoice-voice-Ukrainian-Anatol-4.1.nvda-addon
- Размер архива: 128 MB.
- Далее
Скачать с облака Mail.ru
К списку
Комплект RHVoice-V.0.7.0-Sapi5 Раздельные компоненты
Представленный пакет синтезатора RHVoice для Windows содержит в себе семь языковых пакетов и четырнадцать голосовых модулей.Комплект выполнен в виде раздельных модулей, для выборочной
установки.
- Дата релиза: 19 Май 2018
Содержимое архива:
Разложено в архиве по трём папкам:
- 1. General
- 2. Language
- 3. Voice
Разложены модули из этого списка:
- RHVoice-0.7.0-setup.exe
- RHVoice-language-English-2.4-setup.exe
- RHVoice-language-Esperanto-1.2-setup.exe
- RHVoice-language-Georgian-1.8-setup.exe
- RHVoice-language-Kyrgyz-1.14-setup.exe
- RHVoice-language-Russian-2.3-setup.exe
- RHVoice-language-Tatar-1.8-setup.exe
- RHVoice-language-Ukrainian-1.3-setup.exe
- RHVoice-voice-English-Alan-4.0-setup.exe
- RHVoice-voice-English-Bdl-4.0-setup.exe
- RHVoice-voice-English-Clb-4.0-setup.exe
- RHVoice-voice-English-Slt-4.0-setup.exe
- RHVoice-voice-Esperanto-Spomenka-4.0-setup.exe
- RHVoice-voice-Georgian-Natia-4.0-setup.exe
- RHVoice-voice-Kyrgyz-Azamat-4.0-setup.exe
- RHVoice-voice-Kyrgyz-Nazgul-4.0-setup.exe
- RHVoice-voice-Russian-Aleksandr-4.1-setup.exe
- RHVoice-voice-Russian-Anna-4.0-setup.exe
- RHVoice-voice-Russian-Elena-4.1-setup.exe
- RHVoice-voice-Russian-Irina-4.0-setup.exe
- RHVoice-voice-Tatar-Talgat-4.0-setup.exe
- RHVoice-voice-Ukrainian-Anatol-4.1-setup.exe
- Размер архива: 114 MB.
- Далее
Скачать с облака Mail.ru
К списку
Комплект RHVoice-V.0.6-Nvda-addon Раздельные компоненты
Представленный пакет содержит в себе пять языков в формате Nvda-addon, кроме Киргизского и Татарского языка.
Комплект выполнен в виде раздельных модулей, для выборочной установки.
- RHVoice-0.6.nvda-addon
- RHVoice-language-English-2.0.nvda-addon
- RHVoice-language-Esperanto-1.1.nvda-addon
- RHVoice-language-Georgian-1.5.nvda-addon
- RHVoice-language-Russian-2.1.nvda-addon
- RHVoice-language-Ukrainian-1.1.nvda-addon
- RHVoice-voice-English-Alan-2.1.nvda-addon
- RHVoice-voice-English-Bdl-2.0.nvda-addon
- RHVoice-voice-English-Clb-2.0.nvda-addon
- RHVoice-voice-English-Slt-2.0.nvda-addon
- RHVoice-voice-Esperanto-Spomenka-2.0.nvda-addon
- RHVoice-voice-Georgian-Natia-2.0.nvda-addon
- RHVoice-voice-Russian-Aleksandr-2.0.nvda-addon
- RHVoice-voice-Russian-Anna-2.0.nvda-addon
- RHVoice-voice-Russian-Elena-2.0.nvda-addon
- RHVoice-voice-Russian-Irina-2.0.nvda-addon
- RHVoice-voice-Ukrainian-Anatol-2.1.nvda-addon
Скачать RHVoice-V.0.6-Nvda-addon.rar
К списку
Комплект RHVoice-V.0.6-Sapi5 Раздельные компоненты
Представленный пакет синтезатора RHVoice для Windows содержит в себе семь языковых пакетов.
Комплект выполнен в виде раздельных модулей, для выборочной установки.
- RHVoice-v0.6-setup.exe
- RHVoice-language-English-v2.0-setup.exe
- RHVoice-language-Esperanto-v1.1-setup.exe
- RHVoice-language-Georgian-v1.5-setup.exe
- RHVoice-language-Kyrgyz-v1.7-setup.exe
- RHVoice-language-Russian-v2.1-setup.exe
- RHVoice-language-Tatar-v1.5-setup.exe
- RHVoice-language-Ukrainian-v1.1-setup.exe
- RHVoice-voice-English-Alan-v2.1-setup.exe
- RHVoice-voice-English-Bdl-v2.0-setup.exe
- RHVoice-voice-English-Clb-v2.0-setup.exe
- RHVoice-voice-English-Slt-v2.0-setup.exe
- RHVoice-voice-Esperanto-Spomenka-v2.0-setup.exe
- RHVoice-voice-Georgian-Natia-v2.0-setup.exe
- RHVoice-voice-Kyrgyz-Nazgul-v2.0-setup.exe
- RHVoice-voice-Russian-Aleksandr-v2.0-setup.exe
- RHVoice-voice-Russian-Anna-v2.0-setup.exe
- RHVoice-voice-Russian-Elena-v2.0-setup.exe
- RHVoice-voice-Russian-Irina-v2.0-setup.exe
- RHVoice-voice-Tatar-Talgat-v2.0-setup.exe
- RHVoice-voice-Ukrainian-Anatol-v2.1-setup.exe
Скачать RHVoice-V.0.6-Sapi5.rar
К списку
Комплект RHVoice-V.0.6 всё в одном
Представленный пакет синтезатора RHVoice содержит семь языковых модулей и выполнен в одном файле формата Nvda-addon и установщике EXE.
Таким образом можно быстро установить сразу все языковые модули и голоса не путаясь в порядке установки.
- RHVoice-language-English-v2.0
- RHVoice-language-Esperanto-v1.1
- RHVoice-language-Georgian-v1.5
- RHVoice-language-Kyrgyz-v1.7
- RHVoice-language-Russian-v2.1
- RHVoice-language-Tatar-v1.5
- RHVoice-language-Ukrainian-v1.1
- RHVoice-voice-English-Alan-v2.1
- RHVoice-voice-English-Bdl-v2.0
- RHVoice-voice-English-Clb-v2.0
- RHVoice-voice-English-Slt-v2.0
- RHVoice-voice-Esperanto-Spomenka-v2.0
- RHVoice-voice-Georgian-Natia-v2.0
- RHVoice-voice-Kyrgyz-Nazgul-v2.0
- RHVoice-voice-Russian-Aleksandr-v2.0
- RHVoice-voice-Russian-Anna-v2.0
- RHVoice-voice-Russian-Elena-v2.0
- RHVoice-voice-Russian-Irina-v2.0
- RHVoice-voice-Tatar-Talgat-v2.0
- RHVoice-voice-Ukrainian-Anatol-v2.1
Скачать RHVoice-V.0.6.nvda-addon
Скачать RHVoice-V.0.6-setup.exe
К списку
Комплект RHVoice-Kyrgyz-Nazgul-V.0.6.nvda-addon
Представленный комплект не является официальной сборкой, а собран автором сайта Nvda.ru.
Дополнение содержит в себе движок синтезатора RHVoice, языковой пакет Киргизского языка и киргизский голос Nazgul.
Данный пакет можно использовать лишь с одним языком и голосом.
Если необходимы другие языки и голоса, то используйте пакет RHVoice всё в одном.
- Пакет: RHVoice-Kyrgyz-Nazgul-V.0.6.nvda-addon
Скачать RHVoice-Kyrgyz-Nazgul-V.0.6.nvda-addon
К списку
Комплект RHVoice-Tatar-Talgat-V.0.6.nvda-addon
Представленный комплект не является официальной сборкой, а собран автором сайта Nvda.ru.
Дополнение содержит в себе движок синтезатора RHVoice, языковой пакет Татарского языка и Татарский голос Targat.
Данный пакет можно использовать лишь с одним языком и голосом.
Если необходимы другие языки и голоса, то используйте пакет RHVoice всё в одном.
- Пакет: RHVoice-Tatar-Talgat-V.0.6.nvda-addon
Скачать RHVoice-Tatar-Talgat-V.0.6.nvda-addon
К списку
Комплект RHVoice Tatar Talgat Sapi5
- Программный пакет синтезатора татарской речи «Талгат»
- Голос: Талгат
- Язык: Татарский
- Тип: Sapi5 Windows
- Версия: V.2.0
- Система: Windows XP / Windows 10
- Разрядность : 32 / 64
- Размер архива: 5,6 Mb
К списку
Комплект RHVoice Ukrainian Anatol Sapi5
- Голос: Анатолий
- Язык: Украинский
- Тип: Sapi5 Windows
- Версия: v0.6-pre-20161211
- Система: Windows XP / Windows 10
- Разрядность : 32 / 64
- Размер архива: 6,3 Mb
- Словарь: Добавляется после установки самостоятельно
(Инструкция по установки словаря на украинском языке расположена в архиве.)
- Скачать синтезатор
- Скачать словарь
К списку
Комплект RHVoice V.0.5 Раздельные компоненты
- Версия: 0.5
- Автор: Olga Yakovleva
Версия синтезатора речи RHVoice с голосами:
Мужским Александр и Женскими Анна, Елена и Ирина.
С поддержкой английской, грузинской, русской речи, а также языка эспиранто.
Внимание!
В отличии от предыдущий версии синтезатора речи где всё было в единном дополнении, здесь произошло разделение на отдельные модули.
Поэтому в зависимости от потребностей их необходимо устанавливать отдельно, после основного движка синтезатора и языкового модуля.
- Основной модуль — версии: 0.5
- Англоязычный модуль — версии: 1.3
- Эспиранто модуль — версии: 1.0
- Грузинский модуль — версии: 1.4
- Русскоязычный модуль — версии: 2.0
- английский голос Alan — версии: 1.0
- английский голос CLB — версии: 1.0
- английский голос SLT — версии: 1.0
- Эспиранто голос Spomenka — версии: 1.0
- Грузинский голос Natia — версии: 1.0
- русский голос Александр — версии: 1.0
- русский голос Анна — версии: 1.0
- русский голос Елена — версии: 1.0
- русский голос Ирина — версии 1.0
Скачать модуль
Скачать модуль
Скачать модуль
Скачать модуль
Скачать модуль
Скачать голос
Скачать голос
Скачать голос
Скачать голос
Скачать голос
Скачать голос
Скачать голос
Скачать голос
Скачать голос
К списку
Комплект RHVoice V.0.5 всё в одном
- RHVoice Версия 0.5
- Разработчик: Ольга Яковлева
- Все модули и языки в одном архиве
- Размер: 13,7 Mb
Скачать архив
К списку
Комплект RHVoice V.0.4 всё в одном
- Версия: 0.4-a2
- Автор: Olga Yakovleva
В этой версии синтезатора речи все голосовые модули Александр, Ирина и другие, находятся в одном дополнении.
Скачать синтезатор
К списку
Комплект RHVoice V.0.2 Всё в одном
- Версия: 0.2.94
- Автор: Olga Yakovleva
В этой версии синтезатора речи все голосовые модули Александр, Ирина и другие, находятся в одном дополнении.
Скачать синтезатор
К списку
Республиканская специальная библиотека для слепых и слабовидящих
Синтезатор речи на татарском языке «Талгат».
Синтезатор речи на татарском языке- это языковой и голосовой модуль, работающий в составе программного пакета по синтезу речи (RH Voice), призванный озвучивать текстовую информацию на экране персонального компьютера, с помощью программ экранного речевого доступа. Данный синтезатор речи работает в среде Microsoft Speech API version 5, и поэтому, все голоса- в том числе и татарский голос, работают свободно, как системные голоса операционной системы Windows версии 7 и выше. Авторы проекта, гарантируют уверенную работу Синтезатора речи в среде операционной системы «Windows 10».
в своем составе, синтезатор татарской речи, на сегодняшний день, обладает одним мужским голосом (Talgat).
Состав программного пакета.
синтезатор на Татарском языке, состоит из следующих компонентов
1. (RHVoice-v0.6-pre-20170426-setup), файл программной оболочки синтезатора (RHVoice). (Разработчик Яковлева О.В. Свободное распространение).
2. (RHVoice-language-Tatar-v1.3-setup), файл языкового модуля синтезатора на татарском языке. (Разработчик Яковлева О.В. Свободное распространение)
3. (RHVoice-voice-Tatar-Talgat-v2.0-setup), голосовой модуль (Talgat) для синтезатора татарской речи. (Открытая лицензия).
4. Файл Readme с описанием установки.
5.
Лицензионное соглашение
Лицензионное соглашение
На голосовой модуль (Talgat) для синтезатора татарской речи (RHVoice-voice-Tatar-Talgat-v2.0-setup) распространяется открытая лицензия.
Разрешается и одобряется использование, копирование, распространение и изменение продукта при условии, что этот продукт и его производные не будут использованы для продажи.
По поводу коммерческого использования голосового модуля или любого другого, не указанного здесь, обращайтесь к разработчику, выступающему представителем правообладателя. Адрес: ГБУК РТ «Республиканская специальная библиотека для слепых и слабовидящих» г.Казань ул.Серова д.3 Тел.: (843) 557-26-27, 564-63-24. E-mail: [email protected].
Скачивая программный продукт вы соглашаетесь с условиями лицензионного соглашения.
Скачивание по активной ссылке
Программный пакет синтезатора татарской речи «Талгат»
Голосовой модуль (Talgat) для синтезатора татарской речи. (RHVoice-voice-Tatar-Talgat-v2.0-setup)
Правообладатель: Татарстанская региональная общественная организация инвалидов «ТОРОС»
Разработчик: ГБУК РТ «Республиканская специальная библиотека для слепых и слабовидящих», Яковлева Ольга Владимировна
Творческий руководитель и автор проекта: Сафаргалеев Наиль Ибрагимович
Программист проекта: Яковлева Ольга Владимировна
Голос проекта: Хаматшин Талгат Галеевич
Консультанты по фонетике и лингвисты проекта:
Ибрагимов Тавзих Ибрагимович, Сайхунов Мансур Равхатович.
Звукорежиссер и системный администратор проекта: Валеев Альберт Хатипович
Тестеры проекта: Ибрагимов Эдуард Альфредович, Гардиев Рифкат Гарайханович
Адрес для вопросов, отзывов, замечаний. [email protected]
Версии модулей будут меняться по мере выхода обновлений.
2
3
Web Speech API — Интерфейсы веб API
Experimental
Это экспериментальная технология
Так как спецификация этой технологии ещё не стабилизировалась, смотрите таблицу совместимости по поводу использования в различных браузерах. Также заметьте, что синтаксис и поведение экспериментальной технологии может измениться в будущих версиях браузеров, вслед за изменениями спецификации.
Web Speech API позволяет взаимодействовать с голосовыми интерфейсами в ваших веб приложениях. Web Speech API состоит из двух частей: SpeechSynthesis (Текст-в-Речь), и SpeechRecognition (Асинхронное распознавание речи)
Web Speech API позволяет веб приложениям управлять голосовыми данными. Существует два компонента к этому API:
- Распознавание голоса. Доступ обеспечивается через
SpeechRecognition
интерфейс, который в свою очередь обеспечивает возможность распознавать текст из входящего аудио потока (обычно через устройство распознавания речи в устройстве по умолчанию) и отвечать соответственно. Воспользовавшись конструктором интерфейса вы можете создать новыйSpeechRecognition
объект, у которого есть ряд событий для обнаружения начала речи через микрофон устройства.SpeechGrammar
интерфейс предоставляет контейнер для определенного набора грамматики, которое ваше приложение должно использовать. Грамматика определяется с помощью JSpeech Grammar Format (JSGF.) - Доступ к синтезу речи осуществляется с помощью
SpeechSynthesis
интерфейса, компонент text-to-speech позволяет приложениям прочесть свой текстовый контент (обычно через дефолтный синтезатор речи устройства). ВSpeechSynthesisVoice
объектах есть различные типы голоса, и различным частям текста можно назначатьSpeechSynthesisUtterance
объекты. Можно начать воспроизведение передав их методуSpeechSynthesis.speak()
.
Для большей информации по использованию этих фич, смотрите Using the Web Speech API.
Распознавание речи
Синтезирование речи
SpeechSynthesis
- The controller interface for the speech service; this can be used to retrieve information about the synthesis voices available on the device, start and pause speech, and other commands besides.
SpeechSynthesisErrorEvent
- Contains information about any errors that occur while processing
SpeechSynthesisUtterance
objects in the speech service. SpeechSynthesisEvent
- Contains information about the current state of
SpeechSynthesisUtterance
objects that have been processed in the speech service. SpeechSynthesisUtterance
- Represents a speech request. It contains the content the speech service should read and information about how to read it (e.g. language, pitch and volume.)
SpeechSynthesisVoice
- Represents a voice that the system supports. Every
SpeechSynthesisVoice
has its own relative speech service including information about language, name and URI. Window.speechSynthesis
- Specced out as part of a
[NoInterfaceObject]
interface calledSpeechSynthesisGetter
, and Implemented by theWindow
object, thespeechSynthesis
property provides access to theSpeechSynthesis
controller, and therefore the entry point to speech synthesis functionality.
Спецификация | Статус | Комментарий |
---|---|---|
Web Speech API | Черновик | Initial definition |
Feature | Chrome | Edge | Firefox (Gecko) | Internet Explorer | Opera | Safari (WebKit) |
---|---|---|---|---|---|---|
Basic support | 33[1] | (Да) | 49 (49)[2] | Нет | Нет | Нет |
Feature | Android | Chrome | Edge | Firefox Mobile (Gecko) | Firefox OS | IE Phone | Opera Mobile | Safari Mobile |
---|---|---|---|---|---|---|---|---|
Basic support | ? | (Да)[1] | (Да) | ? | 2.5 | Нет | Нет | Нет |
- [1] Speech recognition interfaces are currently prefixed in Chrome, so you’ll need to prefix interface names appropriately, e.g.
webkitSpeechRecognition
; You’ll also need to serve your code through a web server for recognition to work. Speech synthesis is fully supported without prefixes. - [2] Recognition can be enabled via the
media.webspeech.recognition.enable
flag inabout:config
; synthesis is switched on by default. Note that currently only the speech synthesis part is available in Firefox Desktop — the speech recognition part will be available soon, once the required internal permissions are sorted out.
To use speech recognition in an app, you need to specify the following permissions in your manifest:
"permissions": {
"audio-capture" : {
"description" : "Audio capture"
},
"speech-recognition" : {
"description" : "Speech recognition"
}
}
You also need a privileged app, so you need to include this as well:
"type": "privileged"
Speech synthesis needs no permissions to be set.
Синтезатор украинской речи RHVoice Анатоль
Синтезатор украинской речи RHVoice Анатоль разработан для среды Windows и Android. Он позволяет незрячим пользователям ПК и смартфонов работать с украиноязычными интерфейсами и текстом.
Синтезатор распространяется бесплатно и может использоваться как на компьютерной технике, так и на смартфонах и планшетах, в бытовых устройствах с речевым интерфейсом. Данная версия является тестовой.
Доступны для скачивания три варианта:
История создания
Не смотря на активное развитие компьютерной техники и речевых технологий, в в том числе для использования незрячими людьми, до сих пор гиганты индустрии, такие как Microsoft, Google и компании, специализирующиеся на выпуске коммерческих синтезаторов речи на различных языках, напрочь игнорировали украиноязычную часть человечества, заставляя использовать для чттения украиноязычных текстов или работы в украиноязычными интерфейсами адаптированные версии русскоязычных синтезаторов речи, построенных на основе русских фонем.
Такая ситуация не могла устроить миллионы украиноязычных людей, а особенно — их слабовидящих и незрячих представителей. Были как индивидуальные, так и коллективные обращения в различные институты власти Украины и международные компании, занимающиеся разработкой программ синтеза речи.
Однако, ввиду отсутствия внятной реакции на протяжении многих лет, инициативная группа харьковчан — членов общественной организации инвалидов «Социально-реабилитационный центр незрячих», провели переговоры с достаточно известной в отрасли разработки синтеза речи програмисткой Ольгой Яковлевой и, заручившись её обещанием участия в проекте, приступили к объединению единомышленников для реализации проекта. Вчастности, была создана публичная группа в социальной сети Facebook, осуществлён сбор средств для оплаты работы профессионального диктора и звукорежиссёра для записи аудио материалов по предоставленным программистом текстам, проверка и коррекция результатов начитки и исправления, множество другой рутинной технической работы с текстовыми массивами и аудио материалами. Координацией проекта занимались Евгений мицук, который отвечал за техническую сторону проекта, а также Сергей Москалец, отвечавший за финансовые и организационные вопросы.
Проект поддержан многими общественными организациями, члены которых оказали финансовую, информационную или иную помощь.
Выражаем благодарность общественной организации «Окно в мир» и Константину Брулю, организации незрячих юристов, частным и юридическим лицам, оказавшим помощь в реализации проекта и, конечно, Анатолию Подорожко — диктору харьковского государственного радио и Ольге Яковлевой — программисту и разработчику синтезатора!
Google запускает более реалистичный сервис преобразования текста в речь на базе искусственного интеллекта DeepMind
.
Google запускает новый синтезатор голоса AI в составе своего набора облачных инструментов машинного обучения. Служба Cloud Text-to-Speech будет доступна для любого разработчика или компании, которым требуется синтез голоса при нажатии, будь то приложение, веб-сайт или виртуальный помощник. Но что особенно интересно в этой новости, так это то, что Cloud Text-to-Speech работает на базе WaveNet, программного обеспечения, созданного DeepMind, дочерней компанией Google в области искусственного интеллекта.
Google не хочет, чтобы талант DeepMind в области искусственного интеллекта пропал даром
Это важно по двум причинам. Во-первых, с тех пор, как Google купил DeepMind в 2014 году, он изучает способы превратить искусственный интеллект компании в материальные продукты. До сих пор это означало использование алгоритмов DeepMind для снижения затрат на электроэнергию для охлаждения в центрах обработки данных Google на 40 процентов и набеги DeepMind на здравоохранение. Но прямая интеграция WaveNet в свой облачный сервис, возможно, более важна, особенно когда Google пытается отвоевать облачный бизнес у Amazon и Microsoft, представляя свои навыки искусственного интеллекта в качестве отличительного фактора.
Во-вторых, технология синтеза голоса с искусственным интеллектом DeepMind является одной из самых передовых и реалистичных в отрасли. Большинство голосовых синтезаторов (в том числе Siri от Apple) используют так называемый конкатенативный синтез, при котором программа сохраняет отдельные слоги — звуки, такие как «ба», «шт» и «оо» — и объединяет их на лету, чтобы сформировать слова и предложения. . С годами этот метод стал довольно популярным, но все еще звучит неестественно.
GIF, показывающий, как модель DeepMind WaveNet за эти годы улучшилась. Изображение: DeepMind
WaveNet, для сравнения, использует машинное обучение для создания звука с нуля. Он фактически анализирует формы сигналов из огромной базы данных человеческой речи и воссоздает их со скоростью 24 000 выборок в секунду. Конечный результат включает голоса с тонкими нотками, такими как привкус губ и акценты. Когда Google впервые представил WaveNet в 2016 году, он был слишком ресурсоемким, чтобы работать за пределами исследовательской среды, но с тех пор он значительно сократился, демонстрируя четкий конвейер от исследования к продукту.
WaveNet была впервые интегрирована в Google Assistant в октябре прошлого года (хотя только на японском и английском языках) и теперь доступна для избранных голосов в Cloud Text-To-Speech. Google сообщает, что новый сервис предлагает 32 разных голоса, говорящих на 12 языках, и пользователи могут настраивать такие факторы, как высота звука и скорость. Итак, будьте готовы к волне новых, реалистичных компьютерных голосов, с которыми можно спорить и командовать. Вы можете сами проверить, как звучит WaveNet, ниже.
Вот лучший в отрасли синтезированный голос:
А вот такое же предложение от WaveNet:
Вот синтезатор голоса другого конкурента, на этот раз говорящий по-японски:
И снова то же предложение от WaveNet:
Преобразование текста в речь
— Mycroft AI
Mycroft имеет два движка TTS с открытым исходным кодом.
Mimic 1 — это быстрый и легкий двигатель, основанный на программном обеспечении FLITE Университета Карнеги-Меллона. Хотя оригинальный Mimic может показаться более роботизированным, его можно синтезировать на вашем устройстве.
Mimic 2 — это реализация синтеза речи Tacotron. Это форк проекта Кейта Ито с дополнительными инструментами и улучшениями кода. Mimic 2 обеспечивает гораздо более естественное звучание голоса, однако для этого требуется значительная вычислительная мощность, и поэтому он основан на облаке.
Механизм, который будет использоваться, зависит от голоса, выбранного в настройках вашего устройства дома.mycroft.ai.
В настоящее время:
American Female is Mimic 1
Google Voice использует Google Translate TTS API.
Поскольку голоса Mimic 1 могут быть синтезированы на устройстве, голос британского мужчины будет использоваться каждый раз, когда устройство не может получить доступ к предпочитаемой вами службе TTS. Это позволяет Майкрофту продолжать говорить, даже если он не подключен к сети.
Многоязычный программный синтезатор речи для Linux и Windows.
eSpeak использует метод «формантного синтеза». Это позволяет предоставлять много языков в небольшом размере. Речь четкая и может использоваться на высоких скоростях, но она не такая естественная или плавная, как у более крупных синтезаторов, основанных на записях человеческой речи.
Сначала убедитесь, что в вашей системе установлен пакет espeak.
sudo apt-get install espeak
Затем, используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
"tts" : {
"модуль": "espeak",
"espeak": {
"lang": "english-us",
"voice": "m1"
}
}
многоязычная платформа преобразования текста в речь MARY с открытым исходным кодом.MaryTTS — это система клиент-сервер, написанная на чистой Java, поэтому она работает на многих платформах.
Последние инструкции по установке можно найти в репозитории MaryTTS на Github.
Используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
«tts»: {
«marytts»: {
"url": "http: // ВАШ_СЕРВЕР: PORT_NUMBER"
},
"module": "marytts"
}
Произведен Mivoq, основан на Mary TTS.
Последние инструкции по установке можно найти в репозитории Mivoq FA TTS на Github.
Используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
«tts»: {
«fatts»: {
"url": "http: // ВАШ_СЕРВЕР: PORT_NUMBER"
},
"module": "fatts"
}
Сервис преобразования текста в речь Amazon Polly.
Создайте учетную запись AWS и добавьте сервис Polly.
Вам нужно будет записать свой личный «Идентификатор ключа доступа» и «Секретный ключ доступа».
Сначала проверьте список доступных голосов и языков. Обратите внимание, что Polly не предоставляет отдельный атрибут языка
, как другие параметры TTS. Язык определяется тем, какой голос выбран.
Затем установите модуль python boto3
в виртуальной среде Mycroft:
mycroft-pip install boto3
или
cd ~ / mycroft-core
source.venv / bin / activate
pip3 install boto3
deactivate
Наконец, с помощью Configuration Manager мы можем отредактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
"tts": {
"module": "polly",
"polly": {
"voice": "Matthew",
"region": "us-east-1",
" engine ":" стандартный ",
" access_key_id ":" YOUR_ACCESS_KEY_ID ",
" secret_access_key ":" YOUR_SECRET_ACCESS_KEY "
}
}
регион , и voice engine
, и voice engine
, и voice engine
опущены, будут использоваться значения по умолчанию Matthew
, us-east-1
и стандарт
.Это голос на английском языке (США).
API преобразования текста в речь Google Translate.
Используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
mycroft-config set tts.module "google"
Создайте учетную запись на IBM.com/cloud. После добавления службы TTS в свою учетную запись вы получите ключ API и уникальный URL-адрес API.
Список доступных голосов можно найти на странице «Языки и голоса». Например, «en-US_MichaelV3Voice».
IBM ведет журнал всех запросов в облегченном плане, если вы не отключите его явно, установив для параметра «X-Watson-Learning-Opt-Out» значение true. Мы установили для Mycroft значение Opt-Out по умолчанию, поэтому, если вы хотите делиться данными с IBM, вы должны установить для него значение false.
Используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
«tts»: {
«module»: «watson» ,
«watson»: {
«voice»: «PREFERRED_VOICE»,
«apikey»: «YOUR_API_KEY»,
«url»: «YOUR_API_URL»,
«X-Watson-Out- ":" true "
}
}
Примечание. Это подключаемый модуль TTS, предоставляемый сообществом, и не контролируется Mycroft AI.Обновления для этого подключаемого модуля могли не проверяться командой Майкрофт. Мы настоятельно рекомендуем просмотреть любой код, который вы собираетесь установить, вне официальных каналов Майкрофта.
Плагины в настоящее время доступны только на канале dev
компании Mycroft. Они будут доступны во всех системах в следующем второстепенном выпуске. Если вы не уверены, что это значит, подпишитесь на нашу рассылку новостей , чтобы получать уведомления о следующем выпуске.
mycroft-pip install mycroft-tts-plugin-azure
Для этой службы TTS требуется подписка на Microsoft Azure и создание речевого ресурса (https://docs.microsoft.com/en-us / azure / cognitive-services / speech-service / overview # create-the-azure-resource) Бесплатный план более чем подходит для домашнего использования (5 миллионов символов в месяц или 0,5 миллиона с нейронным голосом TTS)
Вы можете выбрать свой голос здесь, в столбце «название голоса» (https: // docs.microsoft.com/en-us/azure/cognitive-services/speech-service/language-support#text-to-speech) Нейронные голоса намного лучше, но стоят дороже.
"tts": {
"module": "лазурный",
"лазурный": {
"api_key": "insert_your_key_here",
"voice": "en-US-JennyNeural", # необязательно, по умолчанию "en-US-Guy24kRUS"
"region": "westus" # необязательно, если ваш регион - westus
}
}
Создайте учетную запись Microsoft Azure и получите токен доступа к серверу.
Используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
«tts»: {
«module»: «bing» ,
"bing": {
"api_key": "YOUR_API_KEY",
"формат": "riff-16khz-16bit-mono-pcm",
"пол": "Мужской"
}
}
Инструкции по настройке сервера Mozilla TTS доступны в вики проектов.
Используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
«tts»: {
«module»: «mozilla» ,
"mozilla": {
"url": "http: // my-mozilla-tts-server / api / tts"
}
}
По умолчанию для url
установлено значение localhost: http://0.0.0.0:5002/api/tts
Итак, если вы запускаете сервер на том же компьютере, что и ваш экземпляр Mycroft, необходимо установить только атрибут модуля
.Это также можно сделать с помощью одной команды:
mycroft-config set tts.module mozilla
API для этой службы мог значительно измениться. Таким образом, эта опция TTS может быть недоступна. Мы тепло приветствуем вклады в восстановление службы. Пожалуйста, направляйте любые вопросы по разработке на канал ~ Dev Mycroft Chat.
Реалистичные человеческие голоса в цифровом формате от ResponsiveVoice.org.
Используя Configuration Manager, мы можем редактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
«tts»: {
«module»: «responsive_voice»,
«responsive_voice»: {
«пол»: "male",
"pitch": "0.5",
"rate": "0.5",
"vol": "1"
}
}
Общий высокоуровневый интерфейс для речи синтез из Free (B) Soft.
Установите пакет voice-dispatcher
с помощью системного менеджера пакетов.Например: sudo apt-get install speech-dispatcher
Используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
mycroft-config set tts.module "spdsay"
Speech сервисы от Яндекс, одной из крупнейших облачных платформ в России.
Зарегистрируйте аккаунт на Яндекс.
Создайте учетную запись для выставления счетов: https://cloud.yandex.com/docs/billing/quickstart/#create_billing_account
Вы можете активировать бесплатный пробный период в консоли.
Создайте первую «папку» в облаке.
Создайте сервисный аккаунт для своего экземпляра Mycroft с помощью редактора ролей: https://cloud.yandex.com/docs/iam/operations/sa/create
Создайте ключ API для сервисного аккаунта: https: // cloud.yandex.com/docs/iam/operations/api-key/create
Используя Configuration Manager, мы можем отредактировать файл mycroft.conf
, запустив:
К существующим значениям конфигурации мы добавим следующее:
«tts»: {
«модуль»: «яндекс»,
«яндекс»: {
«язык»: «en-US»,
«api_key»: «ВАШ_API_KEY»,
«голос»: «оксана», # необязательно
«эмоция»: «хорошо» # необязательно
}
}
использование Языки Документы Образцы Лицензия
| eSpeak — это компактный программный синтезатор речи с открытым исходным кодом для английского и других языков, Linux и Windows. http://espeak.sourceforge.net eSpeak использует метод «формантного синтеза». Это позволяет предоставлять много языков в небольшом размере. Речь четкая и может использоваться на высоких скоростях, но она не такая естественная или плавная, как у более крупных синтезаторов, основанных на записях человеческой речи. eSpeak доступен как:
Функции.
Я регулярно использую eSpeak для прослушивания блогов и новостных сайтов. Я предпочитаю звук через домашнюю стереосистему, а не через небольшие компьютерные колонки, которые могут звучать довольно резко. Языки . Синтезатор речи eSpeak поддерживает несколько языков, однако во многих случаях это только начальные черновики, и для их улучшения требуется дополнительная работа. Для этих или других новых языков приветствуется помощь носителей языка.Пожалуйста, свяжитесь со мной, если хотите помочь. eSpeak выполняет синтез текста в речь для следующих языков, некоторые Африкаанс, албанский, арагонский, армянский, болгарский, кантонский, Последняя разрабатываемая версия находится по адресу: espeakedit — это программа с графическим пользовательским интерфейсом, используемая для подготовки и компиляции данных фонем. Теперь он доступен для скачивания. Документация в настоящее время скудна, но если вы хотите использовать ее для добавления или улучшения языковой поддержки, дайте мне знать. История. Первоначально известная как , говорит на языке и изначально была написана для компьютеров Acorn / RISC_OS, начиная с 1995 года. Эта версия представляет собой усовершенствование и переписывание, включая ослабление исходной памяти и ограничений вычислительной мощности, а также с поддержкой дополнительных языков. |
Использование API преобразования текста в речь с Python | Google Codelabs
API преобразования текста в речь позволяет разработчикам генерировать человеческую речь. API преобразует текст в аудиоформаты, такие как WAV, MP3 или Ogg Opus. Он также поддерживает вводы языка разметки синтеза речи (SSML) для указания пауз, чисел, форматирования даты и времени и других инструкций по произношению.
В этом руководстве вы сосредоточитесь на использовании API преобразования текста в речь с Python.
Что вы узнаете
- Как использовать Cloud Shell
- Как включить преобразование текста в речь API
- Как аутентифицировать запросы API
- Как установить клиентскую библиотеку для Python
- Как перечислить поддерживаемые языки
- Как вывести список доступных голосов
- Как синтезировать звук из текста
Что вам понадобится
- Проект Google Cloud
- Браузер, например Chrome или Firefox
- Знакомство с Python 3
Обзор
Как вы будете использовать это руководство?
Только прочитатьПрочитайте и выполните упражнения
Как бы вы оценили свой опыт работы с Python?
NoviceIntermediateProficient
Как бы вы оценили свой опыт использования сервисов Google Cloud?
Начинающий Средний Профессиональный
Самостоятельная настройка среды
- Войдите в Cloud Console и создайте новый проект или повторно используйте существующий.(Если у вас еще нет учетной записи Gmail или G Suite, ее необходимо создать.)
Примечание: Вы можете легко получить доступ к Cloud Console, запомнив ее URL-адрес, которым является console.cloud.google.com.
Запомните идентификатор проекта, уникальное имя для всех проектов Google Cloud (указанное выше имя уже занято и не будет работать для вас, извините!). Далее в этой кодовой таблице он будет называться PROJECT_ID
.
Примечание: Если вы используете учетную запись Gmail, вы можете оставить местоположение по умолчанию, установленное на Без организации .Если вы используете учетную запись G Suite, выберите место, удобное для вашей организации.
- Затем вам необходимо включить биллинг в Cloud Console, чтобы использовать ресурсы Google Cloud.
Работа с этой лабораторией кода не должна стоить слишком дорого. Обязательно следуйте инструкциям в разделе «Очистка», в котором рассказывается, как выключить ресурсы, чтобы вам не приходилось выставлять счета за пределами этого руководства. Новые пользователи Google Cloud имеют право на бесплатную пробную версию на 300 долларов США.
Запустить Cloud Shell
Хотя Google Cloud можно управлять удаленно с вашего ноутбука, в этом руководстве вы будете использовать Cloud Shell, среду командной строки, работающую в облаке.
Активировать Cloud Shell
- В Cloud Console нажмите Активировать Cloud Shell .
Если вы никогда раньше не запускали Cloud Shell, вам будет представлен промежуточный экран (в нижней части страницы) с описанием того, что это такое.В этом случае нажмите Продолжить (и вы больше никогда не увидите его). Вот как выглядит этот одноразовый экран:
Подготовка и подключение к Cloud Shell займет всего несколько минут.
Эта виртуальная машина загружена всеми необходимыми инструментами разработки. Он предлагает постоянный домашний каталог размером 5 ГБ и работает в Google Cloud, что значительно повышает производительность сети и аутентификацию. Большая часть, если не вся, ваша работа в этой лаборатории кода может быть выполнена с помощью простого браузера или Chromebook.
После подключения к Cloud Shell вы должны увидеть, что вы уже прошли аутентификацию и что для проекта уже задан идентификатор вашего проекта.
- Выполните следующую команду в Cloud Shell, чтобы подтвердить, что вы прошли аутентификацию:
список авторизации gcloud
Вывод команды
учетных записей АКТИВНЫЙ СЧЕТ * <мой_аккаунт> @ <мой_домен.com> Чтобы установить активную учетную запись, запустите: $ gcloud config установить учетную запись `ACCOUNT`
Примечание: Инструмент командной строки gcloud
— это мощный и унифицированный инструмент командной строки в Google Cloud.Он предустановлен в Cloud Shell. Вы заметите, что он поддерживает автозавершение табуляции. Для получения дополнительной информации см. Обзор инструмента командной строки gcloud.
проект списка конфигурации gcloud
Вывод команды
[обязательный] project =
Если это не так, вы можете установить его с помощью этой команды:
проект набора конфигурации gcloud
Вывод команды
Обновлено свойство [core / project].
Прежде чем вы сможете начать использовать API преобразования текста в речь, вы должны включить API.Используя Cloud Shell, вы можете включить API с помощью следующей команды:
сервисы gcloud включают texttospeech.googleapis.com
Примечание. В случае ошибки вернитесь к предыдущему шагу и проверьте настройки.
Чтобы делать запросы к API преобразования текста в речь, вам необходимо использовать учетную запись службы . Учетная запись службы принадлежит вашему проекту и используется клиентской библиотекой Python для выполнения запросов API преобразования текста в речь. Как и любая другая учетная запись пользователя, учетная запись службы представлена адресом электронной почты.В этом разделе вы воспользуетесь Cloud SDK для создания учетной записи службы, а затем создадите учетные данные, которые потребуются для аутентификации в качестве учетной записи службы.
Сначала установите переменную среды PROJECT_ID
:
экспорт PROJECT_ID = $ (gcloud config get-value core / project)
Затем создайте новую учетную запись службы для доступа к API преобразования текста в речь, используя:
gcloud iam service-accounts create my-tts-sa \ --display-name "моя учетная запись службы tts"
Затем создайте учетные данные, которые ваш код Python будет использовать для входа в качестве новой учетной записи службы.Создайте и сохраните эти учетные данные как файл JSON ~ / key.json
с помощью следующей команды:
gcloud iam service-account keys create ~ / key.json \ --iam-account my-tts-sa@${PROJECT_ID}.iam.gserviceaccount.com
Наконец, установите переменную среды GOOGLE_APPLICATION_CREDENTIALS
, которая используется клиентской библиотекой преобразования речи в текст, описанной на следующем шаге, для поиска ваших учетных данных. В качестве переменной среды необходимо указать полный путь к созданному вами файлу JSON с учетными данными:
.
экспорт GOOGLE_APPLICATION_CREDENTIALS = ~ / key.json
Примечание. Подробнее об аутентификации в Google Cloud API.
Установить клиентскую библиотеку:
pip3 install --user --upgrade google-cloud-texttospeech
Вы должны увидеть что-то вроде этого:
... Установка собранных пакетов: google-cloud-texttospeech Успешно установлен google-cloud-texttospeech-2.2.0
Теперь вы готовы использовать API преобразования текста в речь!
Примечание. Если вы настраиваете собственную среду разработки Python, вы можете следовать этим рекомендациям.
В этом руководстве вы будете использовать интерактивный интерпретатор Python под названием IPython. Начните сеанс, запустив ipython
в Cloud Shell. Эта команда запускает интерпретатор Python в интерактивном сеансе.
ipython
Вы должны увидеть что-то вроде этого:
Python 3.7.3 (по умолчанию, 25 июля 2020 г., 13:03:44) Введите "авторские права", "кредиты" или "лицензия" для получения дополнительной информации. IPython 7.19.0 - усовершенствованный интерактивный Python. Тип '?' для помощи. В 1]:
Примечание. При необходимости вы можете завершить сеанс IPython с помощью команды exit
.
В этом разделе вы получите список всех поддерживаемых языков.
Скопируйте следующий код в сеанс IPython:
из google.cloud импортировать текст в речь
def list_languages ():
client = texttospeech.TextToSpeechClient ()
voices = client.list_voices (). voices
languages = unique_languages_from_voices (голоса)
print (f "Языки: {len (languages)}" .center (60, "-"))
для i, язык в перечислении (отсортированный (языки)):
print (f "{language:> 10}", end = "" если я% 5 <4 else "\ n")
def unique_languages_from_voices (голоса):
language_set = набор ()
для голоса в голосах:
для language_code в голосе.language_codes:
language_set.add (код_языка)
вернуть language_set
Найдите минутку, чтобы изучить код и посмотреть, как он использует метод клиентской библиотеки list_voices
для создания списка поддерживаемых языков.
Вызов функции:
list_languages ()
Вы должны получить этот (или больший) список:
---------------------- Языки: 42 ----------------------- ar-XA bn-IN cmn-CN cmn-TW cs-CZ da-DK de-DE el-GR en-AU en-GB en-IN en-US es-ES fi-FI fil-PH fr-CA fr-FR gu-IN привет-IN ху-ху id-ID it-IT ja-JP kn-IN ko-KR мл-IN nb-NO nl-NL pl-PL pt-BR пт-ПТ ро-РО ру-РУ ск-СК св-Ю та-ин те-ин th-th tr-TR uk-UA vi-VN yue-HK
В списке показаны 42 языка и варианты, например:
- Китайский и тайваньский мандарин,
- Австралийский, британский, индийский и американский английский,
- французов из Канады и Франции,
- португальцев из Бразилии и Португалии.
Этот список не является фиксированным и будет расширяться по мере появления новых голосов.
Примечание. Если вы получаете ошибку PermissionDenied
(403), проверьте действия, выполненные на этапе Authenticate API запросов .
- Убедитесь, что переменная среды учетных данных определена:
echo $ GOOGLE_APPLICATION_CREDENTIALS
- Вы должны увидеть полный путь к файлу учетных данных:
/home/$USER/key.json
- Затем убедитесь, что учетные данные созданы:
cat $ GOOGLE_APPLICATION_CREDENTIALS
- Вы должны увидеть что-то похожее на:
{"type": "service_account", "project_id": "PROJECT_ID" ,...}
Если что-то не так, вернитесь к шагу Аутентификация запросов API .
Резюме
На этом шаге вы смогли перечислить поддерживаемые языки.
В этом разделе вы получите список голосов, доступных на разных языках.
Скопируйте следующий код в сеанс IPython:
из google.cloud импортировать текст в речь
def list_voices (language_code = None):
клиент = texttospeech.TextToSpeechClient ()
ответ = client.list_voices (language_code = language_code)
голоса = отсортировано (response.voices, key = lambda voice: voice.name)
print (f "Голоса: {len (голоса)}" .center (60, "-"))
для голоса в голосах:
languages = "," .join (voice.language_codes)
name = voice.name
пол = texttospeech.SsmlVoiceGender (voice.ssml_gender) .name
rate = voice.natural_sample_rate_hertz
print (f "{languages: <8} | {name: <24} | {пол: <8} | {rate :,} Hz")
Найдите минутку, чтобы изучить код и посмотреть, как он использует метод клиентской библиотеки list_voices (language_code)
для составления списка голосов, доступных для данного языка.
Теперь получите список доступных немецких голосов:
list_voices ("de")
Вы должны увидеть что-то вроде этого:
------------------------ Голоса: 10 ---------------------- - de-DE | de-DE-Standard-A | ЖЕНСКИЙ | 24000 Гц de-DE | de-DE-Standard-B | МУЖЧИНЫ | 24000 Гц de-DE | de-DE-Standard-E | МУЖЧИНЫ | 24000 Гц de-DE | de-DE-Standard-F | ЖЕНСКИЙ | 24000 Гц de-DE | de-DE-Wavenet-A | ЖЕНСКИЙ | 24000 Гц de-DE | de-DE-Wavenet-B | МУЖЧИНЫ | 24000 Гц de-DE | de-DE-Wavenet-C | ЖЕНСКИЙ | 24000 Гц de-DE | de-DE-Wavenet-D | МУЖЧИНЫ | 24000 Гц de-DE | de-DE-Wavenet-E | МУЖЧИНЫ | 24000 Гц de-DE | de-DE-Wavenet-F | ЖЕНСКИЙ | 24000 Гц
Доступны несколько женских и мужских голосов, а также стандартные голоса и голоса WaveNet:
- Стандартные голоса генерируются алгоритмами обработки сигналов.
- WaveNet - это голоса более высокого качества, синтезированные с помощью моделей машинного обучения и звучащие более естественно.
Голоса
Теперь получите список доступных английских голосов:
list_voices ("ru")
У вас должно получиться что-то вроде этого:
------------------------ Голоса: 44 ---------------------- - en-AU | en-AU-Standard-A | ЖЕНСКИЙ | 24000 Гц ... en-AU | en-AU-Wavenet-D | МУЖЧИНЫ | 24000 Гц en-GB | en-GB-Standard-A | ЖЕНСКИЙ | 24000 Гц ... en-GB | en-GB-Wavenet-F | ЖЕНСКИЙ | 24000 Гц en-IN | en-IN-Standard-A | ЖЕНСКИЙ | 24000 Гц ... en-IN | en-IN-Wavenet-D | ЖЕНСКИЙ | 24000 Гц en-US | en-US-Standard-B | МУЖЧИНЫ | 24000 Гц ... en-US | en-US-Wavenet-J | МУЖЧИНЫ | 24000 Гц
Помимо выбора нескольких голосов разного пола и качества, доступно несколько акцентов: австралийский, британский, индийский и американский английский.
Найдите минутку, чтобы перечислить голоса, доступные для ваших предпочтительных языков (или даже для всех):
list_voices ("fr")
list_voices ("pt")
...
list_voices ()
Резюме
На этом шаге вы смогли перечислить доступные голоса. Вы также можете найти полный список голосов, доступных на странице Поддерживаемые голоса.
Вы можете использовать API преобразования текста в речь для преобразования строки в аудиоданные. Вы можете настроить вывод синтеза речи различными способами, включая выбор уникального голоса или модуляцию вывода по высоте тона, громкости, скорости речи и частоте дискретизации.
Скопируйте следующий код в сеанс IPython:
из Google.облачный импорт текста
def text_to_wav (voice_name, text):
language_code = "-". join (voice_name.split ("-") [: 2])
text_input = texttospeech.SynthesisInput (текст = текст)
voice_params = texttospeech.VoiceSelectionParams (
language_code = language_code, name = voice_name
)
audio_config = texttospeech.AudioConfig (
audio_encoding = texttospeech.AudioEncoding.LINEAR16
)
client = texttospeech.TextToSpeechClient ()
response = client.synthesize_speech (
input = text_input, voice = voice_params, audio_config = audio_config
)
filename = f "{language_code}.wav "
с open (filename, "wb") как out:
out.write (response.audio_content)
print (f'Аудиоконтент записан в "{filename}" ')
Найдите минутку, чтобы изучить код и посмотреть, как он использует метод клиентской библиотеки synthesize_speech
для генерации аудиоданных и сохранения их в виде файла wav
.
Теперь генерируйте предложения с несколькими разными акцентами:
text_to_wav ("en-AU-Wavenet-A", "Какая температура в Сиднее?")
text_to_wav ("en-GB-Wavenet-B", "Какая температура в Лондоне?")
text_to_wav ("en-IN-Wavenet-C", "Какая температура в Дели?")
text_to_wav ("en-US-Wavenet-F", "Какая температура в Нью-Йорке?")
Вы должны увидеть что-то вроде этого:
Аудиоконтент, записанный на "en-AU.wav " Аудиоконтент, записанный в "en-GB.wav" Аудиоконтент, записанный в "en-IN.wav" Аудиоконтент, записанный в "en-US.wav"
Чтобы загрузить все сгенерированные файлы сразу, вы можете использовать эту команду Cloud Shell из своей среды Python:
импорт ОС
os.system ("загрузка облаков en - *. wav")
Подтвердите, и ваш браузер загрузит файлы:
Откройте файлы и послушайте результаты.
Резюме
На этом этапе вы смогли использовать API преобразования текста в речь для преобразования предложений в аудио файлы wav
.Узнайте больше о создании голосовых аудиофайлов.
Вы узнали, как использовать API преобразования текста в речь с помощью Python для создания речи, похожей на человеческую!
Очистить
Чтобы избежать списания средств с вашей учетной записи Google Cloud за ресурсы, используемые в этом руководстве:
- В облачной консоли перейдите на страницу «Управление ресурсами».
- В списке проектов выберите свой проект и нажмите Удалить .
- В диалоговом окне введите идентификатор проекта и затем щелкните Завершение работы , чтобы удалить проект.
Узнать больше
Лицензия
Это произведение находится под лицензией Creative Commons Attribution 2.0 Generic.
google / voice-builder: инструмент преобразования текста в речь (TTS) с открытым исходным кодом.
Заявление об ограничении ответственности: Это не официальный продукт Google.
Voice Builder - это инструмент преобразования текста в речь (TTS) с открытым исходным кодом, который
фокусируется на простоте, гибкости и совместной работе.Наш
инструмент позволяет любому, у кого есть базовые навыки работы с компьютером, проводить эксперименты по обучению голоса
и послушайте получившийся синтезированный голос.
Мы надеемся, что этот инструмент снизит барьер для создания новых голосов и
ускорить исследования TTS, ускоряя эксперименты и
междисциплинарное сотрудничество проще. Мы верим, что наш инструмент может помочь
улучшить исследования TTS, особенно для языков с ограниченными ресурсами,
где часто требуется больше экспериментов, чтобы получить максимальную отдачу от ограниченного
данные.
Публикация
- https://ai.google/research/pubs/pub46977
Установка
Предварительные требования
Создайте проект на Google Cloud Platform (GCP).
Если у вас еще нет учетной записи, создайте ее для себя.
Включите выставление счетов и запросите дополнительную квоту для вашего проекта
Установить Docker
Перейдите на firebase.com и импортируйте проект на платформу firebase
.
Если у вас еще нет учетной записи, создайте ее для себя.
Установите инструмент командной строки gcloud, установив облако
SDKУстановите Node.js
Установите инструмент firebase cmd line
Включите все следующие службы GCP:
- Appengine API
- Облачная функция Firebase
- Genomics Pipeline API
Используйте этот URL, чтобы включить их все сразу.
Обычно включение API и
GCP перенесет вас на другую страницу, чтобы установить для них учетные данные.Просто пропустите и закройте страницу, поскольку нам не нужны новые настройки учетных данных.[Необязательно] Настройте собственный экспортер пользовательских данных
Развертывание
Если вы не выполнили все предварительные требования, сделайте это, прежде чем переходить к следующим шагам.
Клонировать этот проект в текущий каталог:
git clone https://github.com/google/voice-builder.git && cd voice-builder
Если вы еще не вошли в свою учетную запись через gcloud, войдите через:
gcloud авторизация входа
Кроме того, если вы не вошли в свою учетную запись через firebase, войдите через:
вход в firebase --no-localhost
Открыть
развернуть.sh
и отредактируйте следующие переменные:- PROJECT_NAME: имя вашего созданного проекта GCP из Предварительного условия 1), например. vb-test-project
- PROJECT_ID: идентификатор вашего созданного проекта GCP из Предварительного условия 1), например. vb-test-project
- GCP_SERVICE_ACCOUNT_EMAIL: используйте сервисный аккаунт Compute Engine (вы можете найти
один, щелкнув в верхнем левом меню в разделе «IAM и администратор> Учетные записи служб»), например
[email protected]
Создание сегментов GCS для Voice Builder для хранения данных каждого задания
./deploy.sh initial_setup
Компонент развертывания облачных функций
./deploy.sh cloud_functions
Развернуть компонент пользовательского интерфейса
./deploy.sh ui create
После развертывания вы должны получить IP-адрес, к которому вы можете получить доступ из команды
результат строки (EXTERNAL_IP). Вы можете получить доступ к своему экземпляру Voice Builder
посетив http: // EXTERNAL_IP: 3389 в
ваш браузер.
Создать пример голоса
На этом этапе у вас должны быть все компоненты и доступ к пользовательскому интерфейсу.
по адресу http: // EXTERNAL_IP: 3389.VoiceBuilder изначально предоставляет вам два
примеры движков TTS (Festival
и Мерлин) и общедоступные данные
из репозитория языковых ресурсов.
Вы можете проверить, все ли теперь работает правильно, создав новый голос
самостоятельно, используя предоставленный нами движок фестиваля:
- Откройте http: // EXTERNAL_IP: 3389 и перейдите к форме создания голоса, щелкнув
Вкладка «СОЗДАТЬ ГОЛОС» вверху. - Вы увидите форму, в которой вы можете выбрать различные движки TTS и ввод
данные для вашего голоса. Просто просмотрите, как мы будем использовать эту начальную конфигурацию
для создания нового голоса.Попробуйте нажать кнопку «Создать голос» внизу.
Через короткое время вы должны получить уведомление в правом верхнем углу с надписью
«успешно создал работу». - Щелкните вкладку «ЗАДАНИЯ». Теперь вы должны увидеть новую работу, которую вы только что
созданный. Бег обычно занимает от 30 минут до 1 часа. Вы можете проверить статус
задания, щелкнув идентификатор задания, чтобы увидеть страницу статуса задания. - Через час вы должны увидеть «Завершенное развертывание голосовой модели» в
статус работы. Это означает, что успешно построенная модель была развернута.
к серверу синтеза голоса.Попробуйте ввести "привет" в поле ввода текста.
внизу страницы статуса вакансии и нажмите кнопку «Синтезировать».
Voice Builder должен генерировать спектрограмму и иметь для вас кнопку воспроизведения.
слушать голос!
(необязательно) Использование Custom Data Exporter
Data Exporter - еще один дополнительный компонент, который вы можете добавить в систему.
Обычно Voice Builder может работать без Data Exporter. Без этого,
Voice Builder просто будет использовать входные файлы в том виде, в каком они есть.
Однако в некоторых случаях вы хотите применить некоторую конверсию к вашим входным файлам.
перед подачей их в алгоритмы TTS.Например:
- У вас есть файл словаря в формате, отличном от принятого
по выбранному вами алгоритму TTS. - Вы хотите отфильтровать некоторые неверные данные, прежде чем использовать их в выбранном вами алгоритме TTS.
Voice Builder дает вам возможность добавить свой собственный экспортер данных, который вы
можно использовать для обработки данных перед запуском фактического алгоритма TTS. Ваш обычай
экспортер данных получит голосовую спецификацию
содержащий расположение файла, выбранный алгоритм TTS, параметры настройки и т. д.Вы можете использовать эту информацию для
манипулировать / преобразовывать ваши данные. В конце концов, ваш экспортер данных должен поставить все
необходимые файлы в назначенную папку задания, чтобы запустить фактический алгоритм TTS.
Во-первых, вам необходимо предоставить экспортеру данных доступ к корзинам GCS.
Откройте /deploy.sh и отредактируйте следующие переменные:
- DATA_EXPORTER_SERVICE_ACCOUNT: получение путем создания новой службы
учетная запись экспортера данных для доступа к корзинам GCS.
- DATA_EXPORTER_SERVICE_ACCOUNT: получение путем создания новой службы
Выполните команду, чтобы предоставить DATA_EXPORTER_SERVICE_ACCOUNT доступ ACL к сегментам GCS
./deploy.sh acl_for_data_exporter
Во-вторых, вам нужно указать URL-адрес экспортера данных в config.js, чтобы
Voice Builder знает, куда отправлять информацию о голосовых характеристиках.Откройте /config.js и добавьте DATA_EXPORTER_API в конфигурацию следующим образом:
DATA_EXPORTER_API: { BASE_URL: '
', API_KEY: ' ', } , где BASE_URL - это URL-адрес вашего экспортера данных, а API_KEY - это ключ API вашего экспортера данных.
Повторно разверните экземпляр пользовательского интерфейса Voice Builder, чтобы он имел новую конфигурацию и знал
куда отправить информацию о голосовой спецификации. вашему экспортеру данных./deploy.sh обновление пользовательского интерфейса
Попробуйте создать новую работу! Теперь Voice Builder должен отправить запрос на ваш DATA_EXPORTER_URL
с голосовой спецификацией созданного задания.
Спецификация Voice Builder
VoiceBuildingSpecification
- это определение голосовой спецификации в формате JSON.Эта спецификация создается серверной частью Voice Builder, когда пользователь запускает запрос построения голоса из пользовательского интерфейса. Он может использоваться экспортером данных (переданным экспортеру данных через его API) для преобразования файлов и механизмом TTS для параметров обучения.
{
"id": int,
"voice_name": строка,
"created_by": строка,
"папка-вакансия": строка,
"lexicon_path": объект (Путь),
"phonology_path": объект (Путь),
"wavs_path": объект (Путь),
"wavs_info_path": объект (Путь),
"sample_rate": int,
"tts_engine": строка,
"engine_params": [объект (EngineParam)],
}
Поля | Описание |
---|---|
id | Уникальный глобальный идентификатор задания. |
voice_name | Удобное для пользователя голосовое имя (например, голос из нескольких динамиков). |
created_by | Имя пользователя, создавшего голос. |
папка-задание | Путь к папке заданий GCS. Здесь хранятся все данные, относящиеся к заданию. |
lexicon_path | Путь к лексикону. |
phonology_path | Путь к фонологии. |
wavs_path | Путь к wavs (должен быть tar-файлом). |
wavs_info_path | Путь к файлу, содержащему отображение wav-имени и подсказок. |
частота_выборки | Частота дискретизации, с которой должен быть построен голос. |
tts_engine | Тип движка TTS для тренировки голоса. Значением для этого будет engine_id из выбранного TTS engine engine.json. |
параметры двигателя | Дополнительные параметры двигателя ТТС. |
Парам. Двигателя
EngineParam
содержит параметр для серверной части TTS.
{
«ключ»: строка,
"значение": строка
}
Поля | Описание |
---|---|
ключ | Параметр ключа. |
значение | Значение ключа параметра. |
Путь
Путь
содержит информацию о пути к файлу.
{
"путь": строка
"file_type": строка
}
Поля | Описание |
---|---|
путь | Путь к файлу. |
file_type | Формат файла. |
Пример
Например, если вы настроили экспортер данных, при создании голосового
используя наш предустановленный движок Festival, Voice Builder отправит запрос
тело, подобное приведенному ниже, к вашему экспортеру данных. Тогда ваш экспортер данных имеет
для предварительной обработки данных и помещения их в папку job_folder
(в данном примере это gs: // your-voice-builder-jobs / 1
).
После того, как все необходимые файлы будут помещены в папку, собственно голосовое построение
процесс начнется автоматически, как и ожидалось.
{
"id": 1,
"voice_name": "my_voice",
"createdBy": "[email protected]",
«Папка-вакансия»: «gs: // ваш-голос-строитель-вакансии / 1»;
"engine_params": [
{
"ключ": "param_for_festival1",
"значение": "50"
},
{
"ключ": "param_for_festival2",
"значение": "30"
}
],
"sample_rate": "22050",
"tts_engine": "фестиваль",
"lexicon_path": {
"путь": "gs: //voice-builder-public-data/examples/sinhala/lexicon.scm",
"file_type": "SCM"
},
"phonology_path": {
"путь": "gs: // построитель голоса-общедоступные-данные / примеры / синхала / фонология.json ",
"тип_файла": "JSON_EXTERNAL_PHONOLOGY"
},
"wavs_path": {
"путь": "gs: //voice-builder-public-data/examples/sinhala/wavs.tar.gz",
"file_type": "TAR"
},
"wavs_info_path": {
"путь": "gs: //voice-builder-public-data/examples/sinhala/txt.done.data",
"file_type": "LINE_INDEX"
},
}
Дополнительная информация
Как работает синтез речи - Объясните, что материал
Криса Вудфорда. Последнее изменение: 8 апреля 2020 г.
Сколько времени пройдет, прежде чем ваш компьютер
смотрит глубоко в твои глаза и со всеми
электронная искренность, которую он может собрать, бормочет эти три маленьких
слова, которые так много значат: «Я люблю тебя»! Теоретически это могло случиться
прямо сейчас: практически на каждом современном ПК с Windows есть речь
синтезатор (компьютеризированный голос, который превращает письменный текст в
речи), в основном, чтобы помочь людям с нарушениями зрения, которые
не может прочитать крошечный текст, напечатанный на экране.Как именно делать речь
синтезаторы превращают письменную речь в устную? Давайте посмотрим внимательнее!
Artwork: Люди не общаются, печатая слова на лбу, чтобы их могли прочитать другие люди, так почему же компьютеры? Благодаря таким агентам для смартфонов, как Siri, Cortana и "Окей, Google", люди постепенно привыкают к
идея говорить команды компьютеру и получать голосовые ответы.
Что такое синтез речи?
Компьютеры выполняют свою работу в три отдельных этапа, называемых вводом (когда вы вводите
информации, часто с помощью клавиатуры или
мышь), обработка (где
компьютер реагирует на ваш ввод, например, складывая некоторые числа
вы ввели или улучшили цвета на отсканированной фотографии), и
вывод (где вы можете увидеть, как компьютер обработал ваш
ввод, обычно на экране или распечатанный на бумаге).Речь
синтез - это просто форма вывода, когда компьютер или другой
машина зачитывает вам слова вслух реальным или смоделированным голосом
проигрывается через громкоговоритель; технологию часто называют
преобразование текста в речь (TTS).
В говорящих машинах нет ничего нового - как ни странно, они восходят к
18-го века - но компьютеры, которые обычно разговаривают со своими
операторы все еще крайне редки. Правда, мы ездим на машинах с
с помощью компьютеризированных навигаторов, взаимодействуйте с компьютеризированными
коммутаторов, когда мы звоним в коммунальные службы и слушаем
компьютеризированные извинения на вокзалах, когда наши поезда
опаздываю.Но почти никто из нас не разговаривает с нашими компьютерами (с распознаванием голоса).
или сидеть и ждать, пока они ответят. Профессор Стивен Хокинг
был поистине уникальным человеком - во многих отношениях: можете ли вы думать
любого другого человека, известного тем, что он говорит компьютеризированным голосом?
Все, что может измениться в будущем, когда компьютерная речь станет
менее роботизированный и более человечный.
Как работает синтез речи?
Допустим, у вас есть параграф письменного текста, который вы хотите, чтобы ваш компьютер
говорить вслух.Как он превращает написанные слова в слова, которые вы можете
на самом деле слышишь? По сути, это три этапа, которые
Я буду называть текст словами, слова фонемами и фонемами звук.
1. Текст в слова
Читать слова звучит легко, но если вы когда-нибудь слушали чтение маленького ребенка
книга, которая была для них слишком сложной, вы знаете, что это не так
как бы банально это ни казалось. Основная проблема в том, что письменный текст
неоднозначно: одна и та же письменная информация часто может означать больше, чем
одно, и обычно вам нужно понять значение или сделать обоснованное предположение, чтобы прочитать его правильно.Итак, начальный этап синтеза речи, который принято называть
предварительная обработка или нормализация сводятся к уменьшению двусмысленности:
речь идет о том, чтобы сузить множество различных способов, которыми вы могли бы прочитать отрывок текста,
тот, который наиболее подходит.
Предварительная обработка включает в себя
через текст и очистить его, чтобы компьютер делал меньше
ошибки, когда он на самом деле читает слова вслух. Такие вещи, как числа, даты, время,
сокращения, акронимы и специальные символы (символы валюты и т. д.)
нужно превратить в слова - а это сложнее, чем кажется.Число 1843 может означать количество предметов («одна тысяча восемьсот
и сорок три "), год или раз (" восемнадцать сорок три "), или
комбинация навесных замков («один восемь четыре три»), каждая из которых читается
выходит немного иначе. В то время как люди следуют чувству того, что
написали и вычислили произношение таким образом, компьютеры
как правило, у них нет возможности сделать это, поэтому они должны использовать
методы статистической вероятности (обычно скрытые марковские модели) или нейронные сети (компьютерные программы, структурированные
как массивы клеток мозга, которые учатся распознавать закономерности), чтобы
вероятное произношение вместо этого.Итак, если слово «год» встречается в том же предложении, что и «1843»,
Было бы разумно предположить, что это дата, и произнести ее «восемнадцать сорок три».
Если бы перед числами стояла десятичная точка («0,843»), их нужно было бы читать иначе, как «восемь четыре три».
Изображение: контекст имеет значение: синтезатору речи необходимо некоторое понимание того, что он читает.
Предварительная обработка также касается омографов, слов, произносимых по-разному.
в соответствии с тем, что они означают.Слово «читать» можно произносить
либо «красный», либо «тростниковый», поэтому предложение типа «Я прочитал
книга "сразу проблематична для синтезатора речи. Но если
он может определить, что предыдущий текст полностью в прошлом
время, распознавая глаголы в прошедшем времени ("Я встал ... Я взял
душ ... позавтракал ... книжку прочитал ... "), это может сделать
разумное предположение, что «я прочитал [красную] книгу», вероятно, верно.
Точно так же, если предыдущий текст звучит так: «Я встаю ... я принимаю душ ...
Я завтракаю...«умные деньги должны быть на» Я прочитал [тростник]
книга "
2. Слова в фонемы
Разобравшись со словами, которые нужно сказать, синтезатор речи
теперь должен генерировать звуки речи, из которых состоят эти слова. В
Теоретически это простая проблема: все, что нужно компьютеру, - это огромная
алфавитный список слов и детали того, как произносить каждое из них
(как в обычном словаре, где произношение
указан до или после определения). Для каждого слова нам понадобится
список фонем, составляющих его звук.
Теоретически, если в компьютере есть словарь слов и фонем, все это
нужно сделать, чтобы прочитать слово, это найти его в списке, а затем
зачитайте соответствующие фонемы, верно? На практике это сложнее, чем кажется.
Как может продемонстрировать любой хороший актер, одно предложение может быть прочитано по-разному, в зависимости от
значение текста, говорящий человек и эмоции, которые он хочет передать (в лингвистике эта идея известна как
просодия и это один
из самых сложных проблем для решения синтезаторов речи).В предложении можно прочесть даже одно слово (например, "читать").
разными способами (как «красный» / «тростник»), потому что он имеет несколько значений. И даже одним словом
данная фонема будет звучать по-разному в зависимости от фонем, стоящих до и после нее.
Альтернативный подход заключается в разбиении написанных слов на их графемы.
(письменные составляющие единицы, обычно состоящие из отдельных букв или слогов, составляющих слово), а затем
создание соответствующих им фонем с помощью набора простых правил.Это немного похоже на попытку ребенка прочитать слова, которые он никогда не слышал.
встречались ранее (метод чтения, называемый фонетическим
похож). Преимущество этого заключается в том, что компьютер может сделать разумную попытку прочитать любое слово, независимо от того,
или нет это настоящее слово, хранящееся в словаре, иностранное слово или
необычное имя или технический термин. Недостаток в том, что языки
например, в английском есть большое количество неправильных слов, которые
произносятся совершенно иначе, чем они написаны
(например, «полковник», что мы говорим как ядро, а не «кол-о-нелл»; и «яхта», которое произносится как «йот», а не «ях-т»)
- именно те слова, которые вызывают проблемы у детей, обучающихся чтению, и у людей.
с так называемой поверхностной дислексией (также называемой орфографической или зрительной дислексией).
3. Звуковые фонемы
Хорошо, теперь мы преобразовали наш текст (нашу последовательность написанных слов) в список фонем (последовательность звуков
что нужно говорить). Но где взять основные фонемы, которые компьютер читает вслух при повороте?
текст в речь? Есть три разных подхода. Один - использовать записи людей, произносящих фонемы, другой -
компьютер для генерации фонем, генерируя базовые звуковые частоты (что-то вроде
музыкальный синтезатор), и третий подход заключается в имитации механизма человеческого голоса.
Конкатенативный
Синтезаторы речи, использующие записанные человеческие голоса, должны быть предварительно загружены
небольшие фрагменты человеческих звуков, которые они могут переставить. Другими словами,
программист должен записать множество примеров, когда человек говорит
разные вещи, разбейте сказанные предложения на слова и слова
в фонемы. Если имеется достаточно образцов речи, компьютер может
переставьте биты любым количеством разных способов, чтобы полностью создать
новые слова и предложения. Такой тип синтеза речи называется
конкатенативный (от латинских слов, которые просто означают связать биты
вместе в серию или цепочку).Поскольку он основан на записях людей,
конкатенация - наиболее естественный вид синтеза речи
и он широко используется машинами, которым есть что сказать
(например, корпоративные телефонные коммутаторы). Его главный недостаток в том, что он ограничен одним голосом (одним
говорящий одного пола) и (как правило) на одном языке.
Форманта
Если учесть, что речь - это просто звуковой паттерн с разной высотой тона
(частота) и громкость (амплитуда) - как шум, исходящий из
музыкальный инструмент - должно быть возможно сделать электронный
устройство, которое может генерировать любые звуки речи с нуля,
как музыкальный синтезатор.Этот тип синтеза речи известен
как формант, потому что форманты - это 3-5 ключевых (резонансных) частот звука, которые
голосовой аппарат человека генерирует и комбинирует звуки речи или пения. В отличие от синтезаторов речи, которые используют
конкатенация, которая ограничивается перестановкой заранее записанных звуков, форманта
синтезаторы речи могут сказать абсолютно все, даже слова, которых не существует
или иностранные слова, с которыми они никогда не сталкивались. Это делает формантные синтезаторы хорошим выбором.
для спутниковых (навигационных) компьютеров GPS, которые должны считывать многие тысячи
различных (и часто необычных) географических названий, которые было бы трудно запомнить.Теоретически формантные синтезаторы могут легко переключаться с мужского на женский голос (примерно удвоив частоту) или на детский голос (утроив его),
и они могут говорить на любом языке. На практике синтезаторы конкатенации теперь используют
огромные библиотеки звуков, так что они могут сказать почти все, что угодно. А
более очевидное отличие состоит в том, что синтезаторы конкатенации звучат намного
более естественны, чем формантные, которые все еще имеют тенденцию звучать относительно
искусственные и роботизированные.
Произведение: Конкатенативный синтез против формантной речи.Слева: конкатенативный синтезатор строит речь из предварительно сохраненных фрагментов; слова, которые он произносит, представляют собой ограниченные перестановки этих звуков. Справа: Подобно музыкальному синтезатору, формантный синтезатор использует генераторы частоты для генерации любого звука.
Артикуляционный
Самый сложный подход к генерации звуков называется артикуляционным синтезом. Он означает, что компьютеры заставляют говорить, моделируя удивительно сложный голосовой аппарат человека. Теоретически это должно дать наиболее реалистичный и человечный голос
все три метода.Хотя многочисленные исследователи экспериментировали с имитацией человеческого голосового аппарата, артикуляционный синтез по-прежнему остается наименее изученным методом, в основном из-за его сложности. Наиболее сложной формой артикуляционного синтеза было бы создание робота с «говорящей головой» с движущимся ртом, который издает звук аналогично человеку, комбинируя
механические, электрические и электронные компоненты, если это необходимо.
Для чего используются синтезаторы речи?
Фото: Будут ли люди разговаривать друг с другом в будущем? Всевозможные публичные объявления теперь делаются записанными или синтезированными голосами, управляемыми компьютером, но есть множество областей, куда даже самые умные машины боялись бы ступить.Представьте себе компьютер, пытающийся прокомментировать динамичное спортивное событие, например, родео,
Например. Даже если бы он мог наблюдать и правильно интерпретировать действие, и даже если бы у него были все нужные слова, чтобы сказать,
может ли он действительно передать нужные эмоции? Фото Кэрол М. Хайсмит, любезно предоставлено Gates Frontiers Fund Wyoming Collection из архива Кэрол М. Хайсмит, Библиотека Конгресса, Отдел эстампов и фотографий.
Проработайте свой обычный день, и вы можете столкнуться со всеми видами
записанные голоса, но по мере развития технологий становится все труднее
выяснить, слушаете ли вы простую запись или
синтезатор речи.У вас может быть будильник, который будит вас, говоря время, возможно
используя грубый, формантный синтез речи. Если у вас есть говорящий GPS
система в вашем автомобиле, которая может использовать конкатенированную речь
синтез (если у него относительно ограниченный словарный запас) или
формантный синтез (если голос настраивается и умеет читать географические названия).
Если у вас есть устройство для чтения электронных книг, возможно, у вас есть встроенный
рассказчик? Если у вас слабое зрение, вы можете использовать программу чтения с экрана.
который произносит слова вслух с экрана вашего компьютера (самый современный
На компьютерах с Windows есть программа под названием Экранный диктор, которую можно переключать
чтобы сделать именно это).Используете вы это или нет,
это скорее всего твой мобильный телефон
умеет выслушивать ваши вопросы и
ответ через интеллектуального личного помощника - Siri (iPhone), Cortana (Microsoft),
или Google Assistant / Now (Android). Если вы на публике
транспорт, вы все время будете слышать записанные голоса, говорящие
объявления о безопасности или сообщении, что поезда и
следом идут автобусы. Это простые записи людей ... или они используют
составная, синтезированная речь? Посмотрим, сможешь ли ты понять это! Один действительно
Интересно использование синтеза речи в обучении иностранным языкам.Синтезаторы речи теперь настолько реалистичны, что их достаточно для
языковые студенты для использования на практике.
Кто изобрел синтез речи?
Говорящие компьютеры звучат как что-то из научной фантастики - и действительно,
самый известный пример синтеза речи именно такой. В
Новаторский фильм Стэнли Кубрика 2001: Космическая одиссея
(по роману Артура Кларка) компьютер под названием HAL
лихо болтает человеческим голосом и в конце
рассказ, переходит в печальное исполнение песни Daisy Bell (A
Bicycle Built for Two) как космонавт разбирает его.
Artwork: Speak & Spell - культовая электронная игрушка от Texas Instruments, которая познакомила целое поколение детей с синтезом речи в конце 1970-х годов. Он был построен вокруг TI
Микросхема TMC0281.
Вот краткий экскурс в историю синтеза речи:
- 1769: австро-венгерский изобретатель Вольфганг фон Кемпелен разрабатывает одну из первых в мире механических говорящих машин,
в котором используются сильфоны и компоненты волынки для создания грубых шумов, похожих на человеческий голос.Это рано
пример артикуляционного синтеза речи. - 1770-е: Примерно в то же время датский ученый Кристиан Кратценштейн, работая в России, создает механическую версию.
голосовой системы человека, используя модифицированные органные трубы, которые могут
произнесите пять гласных. В 1791 году он пишет книгу на эту тему под названием
Mechanismus der menschlichen Sprache nebst Beschreibung einer
sprechenden Maschine (Механизм человеческого языка с описанием говорящей машины). - 1837: английский физик и плодовитый изобретатель Чарльз Уитстон, долгое время увлекавшийся музыкальными инструментами и звуком, заново открывает
и популяризирует улучшенную версию говорящей машины фон Кемпелена. - 1928: Работает в Bell Laboratories, американский ученый.
Гомер В. Дадли
разрабатывает электронный анализатор речи под названием Vocoder
(не путать со знаменитым голосовым вокодером
использовался во многих электронных поп-записях 1970-х годов). Дадли превращает вокодер в водер, электронную речь.
синтезатор управляется через клавиатуру. Писатель из The New
York Times видит устройство, продемонстрированное на Всемирной выставке 1939 года.
и заявляет: «Боже мой, это говорит!» Перейдите по ссылке на сайт Bell, чтобы услышать
образец слова Водера "Всем привет!" - 1940-е: Другой американский ученый, Фрэнк Купер из Haskins Laboratories,
разрабатывает систему под названием Pattern Playback, которая может генерировать звуки речи на основе их частотного спектра. - 1953: Американский ученый Уолтер Лоуренс создает PAT (Parametric Artificial Talker), первый формантный синтезатор, который воспроизводит звуки речи путем комбинирования четырех, шести, а затем и восьми формантных частот.
- 1958: Ученый из Массачусетского технологического института Джордж Розен разрабатывает новаторский артикуляционный синтезатор под названием DAVO (динамический аналог голосового тракта).
- 1960-е / 1970-е: снова в Bell Laboratories, Сесил Кокер
работает над лучшими методами артикуляционного синтеза, в то время как Джозеф П. Олив
развивает конкатенативный синтез. - 1978: Texas Instruments выпускает свой синтезатор речи TMC0281 и запускает портативную электронную игрушку под названием
Speak & Spell, в котором в качестве учебного пособия используется грубый формантный синтез речи. - 1984: компьютер Apple Macintosh поставляется со встроенной функцией речи MacInTalk
синтезатор, широко используемый в популярных песнях, таких как Radiohead's Fitter Happier и Paranoid Android. - 2001: AT&T представляет Natural Voices, естественное конкатентивное слово
синтезатор речи на основе огромной базы данных звуковых образцов, записанных с реальных людей.Система широко используется в онлайн-приложениях, таких как веб-сайты, которые могут читать электронные письма вслух. - 2011: Apple добавляет Siri, голосового «интеллектуального агента» в свой iPhone (смартфон).
- 2014: Microsoft представляет Skype Translator, который может автоматически переводить разговорный разговор с одного языка на один из 40 других. В том же году Microsoft демонстрирует Cortana, собственную версию Siri.
- 2015: Amazon Echo, персональный помощник с голосовым программным обеспечением под названием Alexa, выходит в общий выпуск.
- 2016: Google присоединяется к клубу, выпустив Google Assistant, ответ на Siri и Cortana, позже включив его в Google Home.
Экспериментируйте сами!
Почему бы не испытать на себе немного синтеза речи? Вот два примера того, что первое предложение этого
статья звучит как зачитанная Microsoft Sam (синтезатор формантной речи, встроенный в Windows XP) и Microsoft Anna (более естественное звучание,
синтезатор формант в Windows Vista и Windows 7).Обратите внимание, насколько технология улучшилась всего за пять лет или около того между этими разными выступлениями.
синтезаторы выпускаются.
Сэм
Ваш браузер не поддерживает аудио элементы.
Анна
Ваш браузер не поддерживает аудио элементы.
Если у вас есть современный компьютер (Windows или Mac), в нем почти наверняка где-то скрывается синтезатор речи:
- Windows: Встроенная программа преобразования текста в речь называется Экранным диктором.
- Mac: вам понадобится VoiceOver
или на старых компьютерах Mac вы можете попробовать использовать PlainTalk. - Linux: экспериментальные программы, которые вы можете установить, включают eSpeak, основанный на синтезе формант.
- Web: Существуют различные веб-синтезаторы, с которыми вы можете играть, используя любую операционную систему, включая AT&T Natural Voices, FreeTTS на основе Java,
и надстройка Firefox под названием Text to Speech.
И не забывайте IBM Watson Text-to-Speech, который основан на облаке.
Синтез речи
: обзор | пользователя Sciforce | Sciforce
В моем детстве одним из самых забавных взаимодействий с компьютером было заставить его читать сказку.Вы можете скопировать текст в окно и вскоре послушать, как бесцветный металлический голос пробирается через запятые и перестает плести рассказ со странным акцентом. По тем временам это было чудо.
В настоящее время цель TTS - технологии преобразования текста в речь - не просто заставить машины разговаривать, а заставить их звучать как люди разного возраста и пола. В перспективе мы сможем слушать аудиокниги и новости с машинным голосом по телевизору или общаться с помощниками, не замечая разницы.
Как этого добиться и какие основные конкуренты в этой сфере - читайте в нашем посте.
Измерения качества
Как правило, качество синтезаторов системы TTS оценивается по различным аспектам, включая разборчивость, естественность и предпочтительность синтетической речи [4], а также факторы человеческого восприятия, такие как разборчивость [3 ].
Разборчивость: качество генерируемого звука или степень воспроизведения каждого слова в предложении .
Естественность: качество речи с точки зрения ее временной структуры, произношения и передачи эмоций.
Предпочтение : лучший выбор TTS для слушателей; предпочтение и естественность зависят от системы TTS, качества сигнала и голоса, по отдельности и в сочетании.
Понятность : степень понятности полученных сообщений.
Развитие компьютерных наук и искусственного интеллекта влияет на подходы к синтезу речи, которые развивались на протяжении многих лет в ответ на последние тенденции и новые возможности в сборе и обработке данных.В то время как в течение долгого времени двумя основными методами преобразования текста в речь были конкатенативный TTS и параметрический TTS, революция в области глубокого обучения добавила новый взгляд на проблему синтеза речи, сместив акцент с речевых функций, разработанных человеком, на полностью машинно-полученные параметры [1,2].
Конкатенативный TTS
Конкатенативный TTS основан на высококачественных записях аудиоклипов, которые объединяются для формирования речи. На первом этапе голосовые актеры записываются, произнося ряд речевых единиц, от целых предложений до слогов, которые затем маркируются и сегментируются по языковым единицам, от телефонов до фраз и предложений, образующих огромную базу данных.Во время синтеза речи механизм преобразования текста в речь ищет в такой базе данных речевые единицы, которые соответствуют входному тексту, объединяет их вместе и создает аудиофайл.
Плюсы
- Высокое качество звука с точки зрения разборчивости;
- Возможность сохранения оригинального актерского голоса;
Минусы
- Такие системы требуют очень много времени, потому что они требуют огромных баз данных и жестко кодируют комбинацию для формирования этих слов;
- Результирующая речь может казаться менее естественной и бесчувственной, потому что практически невозможно получить аудиозаписи всех возможных слов, произнесенных во всех возможных комбинациях эмоций, просодии, стресса и т. Д.
Примеры:
Синтез певческого голоса - это тип синтеза речи, который наилучшим образом соответствует возможностям конкатенативного TTS. Имея возможность записать конкретного певца, такие системы могут сохранить наследие, восстанавливая записи звезд прошлых дней, как в Acapella Group, а также заставить вашего любимого певца исполнить другую песню по вашему вкусу, как в Вокалоид.
Синтез форманта
Методика синтеза форманта - это метод TTS, основанный на правилах.Он производит речевые сегменты, генерируя искусственные сигналы на основе набора определенных правил, имитирующих структуру формант и другие спектральные свойства естественной речи. Синтезированная речь производится с использованием аддитивного синтеза и акустической модели. Акустическая модель использует такие параметры, как голос, основная частота, уровни шума и т. Д., Которые менялись во времени. Системы на основе формант могут управлять всеми аспектами выходной речи, создавая широкий спектр эмоций и голоса разного тона с помощью некоторых техник просодического и интонационного моделирования.
Плюсы
- Синтезированная речь с высокой разборчивостью, даже на высоких скоростях, без акустических глюков;
- Менее зависит от корпуса речи для вывода речи;
- Хорошо подходит для встраиваемых систем, где память и мощность микропроцессора ограничены.
Минусы
- Низкая естественность: метод воспроизводит искусственную, звучащую как робот речь, которая далека от естественной речи человека.
- Трудно разработать правила, которые определяют синхронизацию источника и динамические значения всех параметров фильтра даже для простых слов
Примеры
Метод синтеза формант широко используется для имитации голосовых функций, которые принимают речь в качестве входных и найти соответствующие входные параметры, которые создают речь, имитирующую целевую речь.Одним из самых известных примеров является espeak-ng, многоязычная система синтеза речи с открытым исходным кодом, основанная на синтезаторе Klatt. Эта система включена в качестве синтезатора речи по умолчанию в программу чтения с экрана с открытым исходным кодом NVDA для Windows, Android, Ubuntu и других дистрибутивов Linux. Более того, его предшественник eSpeak использовался Google Translate для 27 языков в 2010 году.
Параметрический TTS
Для устранения ограничений конкатенативного TTS был разработан более статистический метод.Идея, лежащая в основе этого, заключается в том, что, если мы можем приблизиться к параметрам, из которых состоит речь, мы можем обучить модель генерировать все виды речи. Параметрический метод объединяет параметры, включая основную частоту, амплитудный спектр и т. Д., И обрабатывает их для генерации речи. На первом этапе текст обрабатывается для извлечения лингвистических характеристик, таких как фонемы или продолжительность. Второй шаг требует извлечения характеристик вокодера , таких как кепстра, спектрограмма, основная частота и т. Д., которые представляют собой некоторые неотъемлемые характеристики человеческой речи и используются при обработке звука. Эти функции разрабатываются вручную и вместе с языковыми функциями вводятся в математическую модель, называемую вокодером. При генерации сигнала вокодер преобразует характеристики и оценивает параметры речи, такие как фаза, скорость речи, интонация и другие. Этот метод использует скрытые полумарковские модели - переходы между состояниями все еще существуют, и модель является марковской на этом уровне, но явная модель продолжительности в каждом состоянии не является марковской.
Плюсы:
- Повышенная естественность звука. К сожалению, технология создания эмоциональных голосов еще не усовершенствована, но параметрические TTS способны на это. Помимо эмоциональных голосов, он имеет большой потенциал в таких областях, как адаптация говорящего и интерполяция говорящего;
- Гибкость: легче изменить высоту звука для эмоционального изменения или использовать адаптацию MLLR для изменения характеристик голоса;
- Более низкая стоимость разработки: требуется всего 2–3 часа времени записи голосового актера, что связано с меньшим количеством записей, меньшей базой данных и меньшим объемом обработки данных.
Минусы:
- Более низкое качество звука с точки зрения разборчивости: есть много артефактов, приводящих к приглушенной речи, с постоянно присутствующим жужжащим звуком, шумным звуком;
- Голос может звучать как робот : в TTS на основе статистической модели, приглушенный звук делает голос стабильным, но неестественным и роботизированным.
Примеры:
Хотя впервые представленный в 1990-х годах, параметрический движок TTS стал популярен примерно в 2007 году, при этом Festival Speech Synthesis System от Эдинбургского университета и Festvox Университета Карнеги-Меллона являются примерами таких движков, лежащих в основе синтеза речи. системы, такие как FreeTTS.
Гибридные подходы (глубокое обучение)
Подход, основанный на DNN (Deep Neural Network), - это еще один вариант подходов статистического синтеза, который используется для преодоления неэффективности деревьев решений, используемых в HMM для моделирования сложных зависимостей контекста. Шаг вперед и возможный прорыв позволили машинам разрабатывать функции без вмешательства человека. Функции, разработанные людьми, основаны на нашем понимании речи, но это не обязательно правильно. В методах DNN связь между входными текстами и их акустической реализацией моделируется DNN.Акустические особенности создаются с использованием сглаживания траектории генерации параметра максимального правдоподобия. Функции, полученные с помощью глубокого обучения, не читаются человеком, но они читаются компьютером и представляют данные, необходимые для модели.
Плюсы
- огромное улучшение как с точки зрения разборчивости, так и естественности;
- Не требует обширной предварительной обработки и разработки функций человеком.
Минусы
- Как недавняя разработка, методы синтеза речи с глубоким обучением все еще требуют исследований.
Примеры:
Это метод глубокого обучения, который сейчас доминирует в этой области, он лежит в основе практически всех успешных систем TTS, таких как WaveNet, Nuance TTS или SampleRNN.
Nuance TTS и Sample RNN - две системы, основанные на рекуррентных нейронных сетях. SampleRNN, например, использует иерархию рекуррентных слоев, которые имеют разные тактовые частоты для обработки звука. Множественные RNN образуют иерархию, где верхний уровень принимает большие порции входных данных, обрабатывает их и передает их на нижний уровень, который обрабатывает меньшие порции, и так далее через нижний уровень, который генерирует одну выборку.