Язык
RSS
Новости
Помощь сайту
Если Вам понравилась программа "Балаболка", Вы можете поддержать ее автора с помощью ЮMoney.

Балаболка Утилита для использования онлайн-сервисов синтеза речи

Консольное приложение позволяет использовать популярные онлайн-сервисы для синтеза речи: текст или субтитры будут преобразованы в звуковые файлы формата WAV. Программа может быть применена в тестовых целях, для изучения возможностей облачных сервисов. Для Yandex SpeechKit было создано отдельное приложение, так как этот сервис принадлежит российской IT-компании.

Утилита для онлайн-сервисов синтеза речи

Онлайн-сервисы для синтеза речи:

  • Google Cloud Text-to-Speech;
  • Amazon Polly;
  • Baidu Text-to-Speech;
  • CereVoice Cloud;
  • Iciba Text-to-Speech;
  • iTranslate Text-to-Speech;
  • Microsoft Azure;
  • Naver Text-to-Speech;
  • Youdao Text-to-Speech;
  • Yandex SpeechKit.

Загрузить утилиту BAL4WEB


Размер файла: МБ
 
Версия: История изменений
 
Тип лицензии: Freeware
 
Операционная система:
Консольное приложение для Yandex SpeechKit: Скачать ( МБ)
Программа позволяет преобразовать текст или субтитры в звуковые файлы при помощи онлайн-сервиса "Яндекс.Облако". Для выполнения операций через API необходимо получить API-ключ в сервисном аккаунте.



Командная строка

Программа может быть настроена с помощью параметров командной строки. Они отделяются друг от друга пробелом и начинаются с символа "-" (дефис). Значения параметров не чувствительны к регистру букв. Полный список параметров командной строки можно получить, введя команду bal4web.exe с параметрами -? или -h.


-s имя_сервиса
Выбрать онлайн-сервис для синтеза речи ("google" или "g", "amazon" или "a", "baidu" или "b", "cerevoice" или "c", "iciba" или "k", "itranslate" или "t", "microsoft" или "m", "naver" или "n", "youdao" или "y"). По умолчанию значение равно "google".
-l идентификатор_языка
Выбрать язык для синтеза речи. Идентификатор представляет собой комбинацию кода языка по стандарту ISO 639 (две маленькие буквы) и кода по стандарту ISO 3166 (две большие буквы), объединенных дефисом. Например: en-US, de-DE, ru-RU.
По умолчанию значение равно "en-US" (этот язык поддерживается всеми онлайн-сервисами).
-g пол
Выбрать пол голоса для синтеза речи (если онлайн-сервис поддерживает такой параметр). Женский пол: "female" или "f". Мужской пол: "male" или "m". Значение по умолчанию отсутствует; онлайн-сервис сам выберет пол голоса для каждого языка.
Параметр поддерживают сервисы Amazon Polly, CereProc TTS, Google TTS, iTranslate TTS, Microsoft Azure, Naver TTS.
-n имя_голоса
Указать имя голоса для синтеза речи (если онлайн-сервис поддерживает такой параметр). Значение по умолчанию отсутствует; онлайн-сервис сам выберет голос для каждого языка.
Параметр поддерживают сервисы Amazon Polly, CereProc TTS, Google Cloud TTS, Microsoft Azure, Naver TTS.
-r число
Установить скорость речи (если онлайн-сервис поддерживает такой параметр).
По умолчанию значение равно "1.0" (средняя скорость человеческой речи).
Для Amazon Polly значения находятся в диапазоне от "0.20" до "2.00".
Для Cereproc TTS значения находятся в диапазоне от "0.30" до "3.00".
Для Google TTS и Microsoft Azure значения находятся в диапазоне от "0.10" до "3.00".
Для iTranslate TTS значения находятся в диапазоне от "0.50" до "2.00".
Для Naver TTS значения находятся в диапазоне от "0.5" до "1.5".
-p целое_число
Установить высоту звука в диапазоне от -20 до 20 (если онлайн-сервис поддерживает такой параметр). По умолчанию значение равно 0.
Параметр поддерживают сервисы Amazon Polly, CereProc TTS, Google Cloud TTS, Microsoft Azure.
-v целое_число
Установить громкость в диапазоне от 0 до 200 (по умолчанию значение равно 100).
-m
Показать список языков, поддерживаемых онлайн-сервисом, а также перечислить дополнительные характеристики голосов для каждого языка (если есть).
-f имя_файла
Открыть текстовый файл. Командная строка может содержать несколько параметров -f. Если входной файл является субтитрами, содержимое файла будет преобразовано в речь с учётом информации об интервалах времени. Формат субтитров будет определён по расширению имени входного файла или с помощью параметра --sub-format.
-fl имя_файла
Открыть файл со списком текстовых файлов (по одному имени файла на каждой строке). Командная строка может содержать несколько параметров -fl.
-w имя_файла
Записать звуковой файл в формате WAV.
-c
Использовать текст из буфера обмена.
-t текст
Использовать текст из командной строки. Командная строка может содержать несколько параметров -t.
-i
Использовать текст из стандартного потока ввода (STDIN).
-o
Записать аудиоданные в стандартный поток вывода (STDOUT); если параметр задан, параметр -w игнорируется.
--encoding кодировка или -enc кодировка
Кодировка входного текста ("ansi", "utf8" или "unicode"). Если параметр не задан, программа автоматически определит кодировку текста.
--silence-begin число или -sb число
Установить длину паузы в начале звукового файла (в миллисекундах). По умолчанию значение равно 0.
--silence-end число или -se число
Установить длину паузы в конце звукового файла (в миллисекундах). По умолчанию значение равно 0.
-ln число
Выбрать строку из текстового файла, используя её номер. Нумерация строк начинается с "1". Для выбора нескольких строк можно указать номера начальной и конечной строк в тексте (например, "26-34"). Командная строка может содержать несколько параметров -ln.
-e число
Установить длину пауз между предложениями (в миллисекундах). Значение должно быть меньше 5000. Если параметр не задан, сервис будет использовать паузы между предложениями по умолчанию. Параметр поддерживает сервис Microsoft Azure (если задан ключ подписки).
-d имя_файла
Применить к тексту правила для коррекции произношения из словаря (файла с расширением *.BXD, *.DIC или *.REX). Командная строка может содержать несколько параметров -d. Пользователь может редактировать словарь в приложении Балаболка.
-lrc
Используя исходный текст, создать файл формата LRC. Текст в файле будет синхронизирован с речью в созданном звуковом файле.
-srt
Используя исходный текст, создать файл формата SRT. Субтитры в файле будет синхронизирован с речью в созданном звуковом файле.
-sub
Исходный текст представляет собой субтитры и должен быть преобразован в звуковой файл с учетом заданных интервалов времени. Параметр может быть полезен в тех случаях, когда в командной строке заданы параметры -i или -c.
-host адрес
Указать адрес прокси-сервера.
-port число
Указать порт прокси-сервера.
-fr число
Установить частоту дискретизации для аудиопотока, в кГц (8, 11, 16, 22, 24, 32, 44, 48). Если параметр не задан, используется значение по умолчанию для выбранного сервиса.
--ignore-square-brackets или -isb
Игнорировать текст в [квадратных скобках].
--ignore-curly-brackets или -icb
Игнорировать текст в {фигурных скобках}.
--ignore-angle-brackets или -iab
Игнорировать текст в <угловых скобках>.
--ignore-round-brackets или -irb
Игнорировать текст в (круглых скобках).
--ignore-url или -iu
Игнорировать URL-адреса внутри текста.
--ignore-comments или -ic
Игнорировать комментарии в тексте. Однострочные комментарии начинаются с // и продолжаются до конца строки. Многострочные комментарии начинаются с /* и завершаются */.
-dp
Показать индикатор прогресса выполнения в окне консольного приложения.
-cfg имя_файла
Задать имя файла конфигурации с параметрами командной строки (текстовый файл, каждая строка которого содержит по одному параметру). Если параметр не задан, будет выбран файл bal4web.cfg в той же папке, что и консольное приложение.
-h
Показать описание параметров командной строки.
--lrc-length число
Установить максимальную длину строк для файла формата LRC (в символах).
--lrc-fname имя_файла
Имя файла формата LRC. Параметр может быть полезен в тех случаях, когда в командной строке задан параметр -o.
--lrc-enc кодировка
Кодировка файла формата LRC ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
--lrc-offset число
Задать сдвиг времени для файла формата LRC (в миллисекундах).
--lrc-artist текст
Тег для файла формата LRC: исполнитель произведения.
--lrc-album текст
Тег для файла формата LRC: альбом.
--lrc-title текст
Тег для файла формата LRC: название произведения.
--lrc-author текст
Тег для файла формата LRC: автор.
--lrc-creator текст
Тег для файла формата LRC: создатель файла.
--lrc-sent
Вставить пустые строки после предложений при создании файла формата LRC.
--lrc-para
Вставить пустые строки после абзацев при создании файла формата LRC.
--srt-length число
Установить максимальную длину строк для файла формата SRT (в символах).
--srt-fname имя_файла
Имя файла формата SRT. Параметр может быть полезен в тех случаях, когда в командной строке задан параметр -o.
--srt-enc кодировка
Кодировка файла формата SRT ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
--raw
Записать аудиоданные в формате RAW PCM; данные не содержат заголовок формата WAV. Параметр используется совместно с параметром -o.
--ignore-length или -il
Не записывать размер аудиоданных в заголовок формата WAV. Параметр используется совместно с параметром -o.
--wss
Использовать протокол WebSocket для Microsoft Azure. Это позволит улучшить характеристики аудиофайлов (24 КГц вместо 16 КГц). Параметр игнорируется, если задан ключ подписки для Microsoft Azure Cognitive Services. Параметр -m поможет проверить, поддерживает голос протокол WebSocket или нет.
--sub-format текст
Формат субтитров ("srt", "lrc", "ssa", "ass", "smi" или "vtt"). Если параметр не задан, формат будет определён по расширению имени файла субтитров.
--sub-fit или -sf
При преобразовании субтитров в речь автоматически увеличивать скорость речи для того, чтобы уложиться в заданные интервалы времени. Используется библиотека SoundTouch, которая умеет ускорять воспроизведение аудиоданных.
--sub-max число или -sm число
Установить максимальную скорость речи в диапазоне от 110% до 200% (для преобразования субтитров в звуковой файл). Программа будет автоматически увеличивать скорость речи, не превышая заданного значения скорости.
 

--aws-keyid текст или -ak текст
Применить ключ доступа для Amazon Polly. Рекомендуется использовать этот ключ, если он у вас есть.
--aws-secret текст или -as текст
Применить секретный ключ для Amazon Polly.
--aws-region текст или -ar текст
Указать регион для Amazon Polly.
--crv-email текст или -ce текст
Указать электронный адрес, который был использован для регистрации на официальном сайте CereProc. Этот электронный адрес необходим для доступа к Cerevoice Cloud API.
--crv-pwd текст или -cp текст
Указать пароль, который был использован для регистрации на официальном сайте CereProc. Пароль необходим для доступа к Cerevoice Cloud API. Рекомендуется использовать этот пароль, если он у вас есть.
--gc-apikey текст или -gk текст
Применить API-ключ для доступа к Google Cloud. Рекомендуется использовать этот ключ, если он у вас есть.
--ms-apikey текст или -mk текст
Применить ключ подписки для Microsoft Azure Cognitive Services. Рекомендуется использовать этот ключ, если он у вас есть.
--ms-region текст или -mr текст
Указать регион подписки для Microsoft Azure Cognitive Services.


Примеры команд

Создать текстовый файл со списком языков, поддерживаемых онлайн-сервисом Google TTS:

bal4web -s Google -m > language.txt



Преобразовать текстовый файл BOOK.TXT в звуковой файл BOOK.WAV:

bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l ru-RU -g female



Преобразовать файл субтитров MOVIE.SRT в звуковой файл MOVIE.WAV:

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l ru-RU -n Svetlana -r 1.1

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l ru-RU -n Svetlana -sub-fit-lib



Пример использования приложения совместно с утилитой LAME.EXE:

bal4web -f d:\book.txt -s Baidu -l ru-RU -o --raw | lame -r -s 16 -m m -h - d:\book.mp3



Пример использования приложения совместно с утилитой OGGENC2.EXE:

bal4web -f d:\book.txt -s Baidu -l ru-RU -o -il | oggenc2 --ignorelength - -o d:\book.ogg




Файл конфигурации

Параметры можно сохранить как файл конфигурации bal4web.cfg в той же папке, что и консольное приложение.

Пример содержимого файла:

-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8

Программа может комбинировать параметры из файла конфигурации и командной строки.




Лицензия

Коммерческое использование программы допускается только с разрешения правообладателя.