Новости
Помощь сайту
Если Вам понравилась программа "Балаболка", Вы можете поддержать ее автора с помощью ЮMoney.
|
Балаболка Утилита для использования онлайн-сервисов синтеза речи
Консольное приложение позволяет использовать популярные онлайн-сервисы для синтеза речи: текст или субтитры будут преобразованы в звуковые файлы формата WAV. Программа может быть применена в тестовых целях, для изучения возможностей облачных сервисов. Для Yandex SpeechKit было создано отдельное приложение, так как этот сервис принадлежит российской IT-компании.
|
Онлайн-сервисы для синтеза речи:
- Google Cloud Text-to-Speech;
- Amazon Polly;
- Baidu Text-to-Speech;
- CereVoice Cloud;
- Iciba Text-to-Speech;
- iTranslate Text-to-Speech;
- Microsoft Azure;
- Naver Text-to-Speech;
- Youdao Text-to-Speech;
- Yandex SpeechKit.
|
Загрузить утилиту BAL4WEB
Размер файла: МБ |
|
Версия: История изменений |
|
Тип лицензии: Freeware |
|
Операционная система: |
Консольное приложение для Yandex SpeechKit: Скачать ( МБ)
Программа позволяет преобразовать текст или субтитры в звуковые файлы при помощи онлайн-сервиса "Яндекс.Облако".
Для выполнения операций через API необходимо получить API-ключ в сервисном аккаунте.
Командная строка
Программа может быть настроена с помощью параметров командной строки. Они отделяются друг от друга пробелом и начинаются с символа "-" (дефис). Значения параметров не чувствительны к регистру букв. Полный список параметров командной строки можно получить, введя команду bal4web.exe с параметрами -? или -h.
- -s имя_сервиса
- Выбрать онлайн-сервис для синтеза речи ("google" или "g", "amazon" или "a", "baidu" или "b", "cerevoice" или "c", "iciba" или "k", "itranslate" или "t", "microsoft" или "m", "naver" или "n", "youdao" или "y"). По умолчанию значение равно "google".
- -l идентификатор_языка
- Выбрать язык для синтеза речи. Идентификатор представляет собой комбинацию кода языка по стандарту ISO 639 (две маленькие буквы) и кода по стандарту ISO 3166 (две большие буквы), объединенных дефисом. Например: en-US, de-DE, ru-RU.
По умолчанию значение равно "en-US" (этот язык поддерживается всеми онлайн-сервисами).
- -g пол
- Выбрать пол голоса для синтеза речи (если онлайн-сервис поддерживает такой параметр). Женский пол: "female" или "f". Мужской пол: "male" или "m". Значение по умолчанию отсутствует; онлайн-сервис сам выберет пол голоса для каждого языка.
Параметр поддерживают сервисы Amazon Polly, CereProc TTS, Google TTS, iTranslate TTS, Microsoft Azure, Naver TTS.
- -n имя_голоса
- Указать имя голоса для синтеза речи (если онлайн-сервис поддерживает такой параметр). Значение по умолчанию отсутствует; онлайн-сервис сам выберет голос для каждого языка.
Параметр поддерживают сервисы Amazon Polly, CereProc TTS, Google Cloud TTS, Microsoft Azure, Naver TTS.
- -r число
- Установить скорость речи (если онлайн-сервис поддерживает такой параметр).
По умолчанию значение равно "1.0" (средняя скорость человеческой речи). Для Amazon Polly значения находятся в диапазоне от "0.20" до "2.00". Для Cereproc TTS значения находятся в диапазоне от "0.30" до "3.00". Для Google TTS и Microsoft Azure значения находятся в диапазоне от "0.10" до "3.00". Для iTranslate TTS значения находятся в диапазоне от "0.50" до "2.00". Для Naver TTS значения находятся в диапазоне от "0.5" до "1.5".
- -p целое_число
- Установить высоту звука в диапазоне от -20 до 20 (если онлайн-сервис поддерживает такой параметр). По умолчанию значение равно 0.
Параметр поддерживают сервисы Amazon Polly, CereProc TTS, Google Cloud TTS, Microsoft Azure.
- -v целое_число
- Установить громкость в диапазоне от 0 до 200 (по умолчанию значение равно 100).
- -m
- Показать список языков, поддерживаемых онлайн-сервисом, а также перечислить дополнительные характеристики голосов для каждого языка (если есть).
- -f имя_файла
- Открыть текстовый файл. Командная строка может содержать несколько параметров -f. Если входной файл является субтитрами, содержимое файла будет преобразовано в речь с учётом информации об интервалах времени. Формат субтитров будет определён по расширению имени входного файла или с помощью параметра --sub-format.
- -fl имя_файла
- Открыть файл со списком текстовых файлов (по одному имени файла на каждой строке). Командная строка может содержать несколько параметров -fl.
- -w имя_файла
- Записать звуковой файл в формате WAV.
- -c
- Использовать текст из буфера обмена.
- -t текст
- Использовать текст из командной строки. Командная строка может содержать несколько параметров -t.
- -i
- Использовать текст из стандартного потока ввода (STDIN).
- -o
- Записать аудиоданные в стандартный поток вывода (STDOUT); если параметр задан, параметр -w игнорируется.
- --encoding кодировка или -enc кодировка
- Кодировка входного текста ("ansi", "utf8" или "unicode"). Если параметр не задан, программа автоматически определит кодировку текста.
- --silence-begin число или -sb число
- Установить длину паузы в начале звукового файла (в миллисекундах). По умолчанию значение равно 0.
- --silence-end число или -se число
- Установить длину паузы в конце звукового файла (в миллисекундах). По умолчанию значение равно 0.
- -ln число
- Выбрать строку из текстового файла, используя её номер. Нумерация строк начинается с "1". Для выбора нескольких строк можно указать номера начальной и конечной строк в тексте (например, "26-34"). Командная строка может содержать несколько параметров -ln.
- -e число
- Установить длину пауз между предложениями (в миллисекундах). Значение должно быть меньше 5000. Если параметр не задан, сервис будет использовать паузы между предложениями по умолчанию. Параметр поддерживает сервис Microsoft Azure (если задан ключ подписки).
- -d имя_файла
- Применить к тексту правила для коррекции произношения из словаря (файла с расширением *.BXD, *.DIC или *.REX). Командная строка может содержать несколько параметров -d. Пользователь может редактировать словарь в приложении Балаболка.
- -lrc
- Используя исходный текст, создать файл формата LRC. Текст в файле будет синхронизирован с речью в созданном звуковом файле.
- -srt
- Используя исходный текст, создать файл формата SRT. Субтитры в файле будет синхронизирован с речью в созданном звуковом файле.
- -sub
- Исходный текст представляет собой субтитры и должен быть преобразован в звуковой файл с учетом заданных интервалов времени. Параметр может быть полезен в тех случаях, когда в командной строке заданы параметры -i или -c.
- -host адрес
- Указать адрес прокси-сервера.
- -port число
- Указать порт прокси-сервера.
- -fr число
- Установить частоту дискретизации для аудиопотока, в кГц (8, 11, 16, 22, 24, 32, 44, 48). Если параметр не задан, используется значение по умолчанию для выбранного сервиса.
- --ignore-square-brackets или -isb
- Игнорировать текст в [квадратных скобках].
- --ignore-curly-brackets или -icb
- Игнорировать текст в {фигурных скобках}.
- --ignore-angle-brackets или -iab
- Игнорировать текст в <угловых скобках>.
- --ignore-round-brackets или -irb
- Игнорировать текст в (круглых скобках).
- --ignore-url или -iu
- Игнорировать URL-адреса внутри текста.
- --ignore-comments или -ic
- Игнорировать комментарии в тексте. Однострочные комментарии начинаются с // и продолжаются до конца строки. Многострочные комментарии начинаются с /* и завершаются */.
- -dp
- Показать индикатор прогресса выполнения в окне консольного приложения.
- -cfg имя_файла
- Задать имя файла конфигурации с параметрами командной строки (текстовый файл, каждая строка которого содержит по одному параметру). Если параметр не задан, будет выбран файл bal4web.cfg в той же папке, что и консольное приложение.
- -h
- Показать описание параметров командной строки.
- --lrc-length число
- Установить максимальную длину строк для файла формата LRC (в символах).
- --lrc-fname имя_файла
- Имя файла формата LRC. Параметр может быть полезен в тех случаях, когда в командной строке задан параметр -o.
- --lrc-enc кодировка
- Кодировка файла формата LRC ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
- --lrc-offset число
- Задать сдвиг времени для файла формата LRC (в миллисекундах).
- --lrc-artist текст
- Тег для файла формата LRC: исполнитель произведения.
- --lrc-album текст
- Тег для файла формата LRC: альбом.
- --lrc-title текст
- Тег для файла формата LRC: название произведения.
- --lrc-author текст
- Тег для файла формата LRC: автор.
- --lrc-creator текст
- Тег для файла формата LRC: создатель файла.
- --lrc-sent
- Вставить пустые строки после предложений при создании файла формата LRC.
- --lrc-para
- Вставить пустые строки после абзацев при создании файла формата LRC.
- --srt-length число
- Установить максимальную длину строк для файла формата SRT (в символах).
- --srt-fname имя_файла
- Имя файла формата SRT. Параметр может быть полезен в тех случаях, когда в командной строке задан параметр -o.
- --srt-enc кодировка
- Кодировка файла формата SRT ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
- --raw
- Записать аудиоданные в формате RAW PCM; данные не содержат заголовок формата WAV. Параметр используется совместно с параметром -o.
- --ignore-length или -il
- Не записывать размер аудиоданных в заголовок формата WAV. Параметр используется совместно с параметром -o.
- --wss
- Использовать протокол WebSocket для Microsoft Azure. Это позволит улучшить характеристики аудиофайлов (24 КГц вместо 16 КГц). Параметр игнорируется, если задан ключ подписки для Microsoft Azure Cognitive Services. Параметр -m поможет проверить, поддерживает голос протокол WebSocket или нет.
- --sub-format текст
- Формат субтитров ("srt", "lrc", "ssa", "ass", "smi" или "vtt"). Если параметр не задан, формат будет определён по расширению имени файла субтитров.
- --sub-fit или -sf
- При преобразовании субтитров в речь автоматически увеличивать скорость речи для того, чтобы уложиться в заданные интервалы времени. Используется библиотека SoundTouch, которая умеет ускорять воспроизведение аудиоданных.
- --sub-max число или -sm число
- Установить максимальную скорость речи в диапазоне от 110% до 200% (для преобразования субтитров в звуковой файл). Программа будет автоматически увеличивать скорость речи, не превышая заданного значения скорости.
- --aws-keyid текст или -ak текст
- Применить ключ доступа для Amazon Polly. Рекомендуется использовать этот ключ, если он у вас есть.
- --aws-secret текст или -as текст
- Применить секретный ключ для Amazon Polly.
- --aws-region текст или -ar текст
- Указать регион для Amazon Polly.
- --crv-email текст или -ce текст
- Указать электронный адрес, который был использован для регистрации на официальном сайте CereProc. Этот электронный адрес необходим для доступа к Cerevoice Cloud API.
- --crv-pwd текст или -cp текст
- Указать пароль, который был использован для регистрации на официальном сайте CereProc. Пароль необходим для доступа к Cerevoice Cloud API. Рекомендуется использовать этот пароль, если он у вас есть.
- --gc-apikey текст или -gk текст
- Применить API-ключ для доступа к Google Cloud. Рекомендуется использовать этот ключ, если он у вас есть.
- --ms-apikey текст или -mk текст
- Применить ключ подписки для Microsoft Azure Cognitive Services. Рекомендуется использовать этот ключ, если он у вас есть.
- --ms-region текст или -mr текст
- Указать регион подписки для Microsoft Azure Cognitive Services.
Примеры команд
Создать текстовый файл со списком языков, поддерживаемых онлайн-сервисом Google TTS:
bal4web -s Google -m > language.txt
Преобразовать текстовый файл BOOK.TXT в звуковой файл BOOK.WAV:
bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l ru-RU -g female
Преобразовать файл субтитров MOVIE.SRT в звуковой файл MOVIE.WAV:
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l ru-RU -n Svetlana -r 1.1
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l ru-RU -n Svetlana -sub-fit-lib
Пример использования приложения совместно с утилитой LAME.EXE:
bal4web -f d:\book.txt -s Baidu -l ru-RU -o --raw | lame -r -s 16 -m m -h - d:\book.mp3
Пример использования приложения совместно с утилитой OGGENC2.EXE:
bal4web -f d:\book.txt -s Baidu -l ru-RU -o -il | oggenc2 --ignorelength - -o d:\book.ogg
Файл конфигурации
Параметры можно сохранить как файл конфигурации bal4web.cfg в той же папке, что и консольное приложение.
Пример содержимого файла:
-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8
|
Программа может комбинировать параметры из файла конфигурации и командной строки.
Лицензия
Коммерческое использование программы допускается только с разрешения правообладателя.
|