Balabolka :: Инструмент за командния ред за онлайн използване на текст в реч

Приложението за командния ред позволява да се използват онлайн услуги за преобразуване на текст в реч: текстови файлове или субтитри могат да бъдат преобразувани в аудио файлове. Утилитата може да се използва за тестови цели: тя ще ви помогне да изберете облачна услуга, която отговаря на вашите нужди. Отделното приложение за Yandex SpeechKit е достъпно за изтегляне, тъй като Yandex е руска ИТ компания с тесни връзки с правителството.

Утилита за използване на онлайн синтез на реч

Онлайн услуги с речеви технологии:

Google Cloud TTS
Amazon Polly
Baidu TTS
CereVoice Cloud
Descript TTS
IBM Watson TTS
Iciba TTS
iTranslate TTS
Microsoft Azure
Naver TTS
OpenAI TTS
Youdao TTS
Yandex SpeechKit

Изтегляне на Balabolka (инструмент за онлайн синтез на реч)

Размер: MB

Версия: Списък с промени

Лиценз: Безплатен (Freeware)

Операционни системи:

Инструмент за командния ред за използване на Yandex SpeechKit: Изтегляне
Програмата преобразува текст или субтитри в аудио файлове с помощта на услугите на Yandex. За извършване на операции чрез ППИ на Yandex трябва да се направи удостоверяване с ППИ ключ.

Команден ред

Конзолната програма обработва различни параметри на командния ред за записване на речта като аудиофайл. Опциите за командния ред използват синтаксиса "balweb.exe [опции ...]", всички параметри трябва да бъдат разделени един от друг чрез интервал. Опциите могат да бъдат подреждани в произволен ред в командния ред, стига да са сдвоени със свързаните с тях параметри. Използвайте командата "balweb -?" за да получите помощ за параметрите и синтаксиса на командния ред.

-s име_на_услуга: Задава името на онлайн услугата за преобразуване на текст в реч ("google" или "g", "amazon" или "a", "baidu" или "b", "cerevoice" или "c", "descript" или "d", "ibm" или "i", "iciba" или "k", "itranslate" или "t", "microsoft" или "m", "naver" или "n", "openai" или "o", "youdao" или "y"). По подразбиране е "google".
-l име_на_език: Задава името на езика за онлайн услугата TTS. Името е комбинация от двубуквен код ISO 639 с малки букви, свързан с езика, и двубуквен код ISO 3166 с главни букви, свързан с държава или регион. Например: bg-BG, de-DE, ru-RU. По подразбиране е "en-US".
Забележка: Descript TTS и OpenAI TTS извършват идентифициране на езика за въведения текст, така че тези услуги понастоящем игнорират тази опция. Тези услуги могат да разпознават няколко десетки езика самостоятелно.
-g пол: Задава пола за онлайн услугата TTS (ако се поддържа). Възможните стойности: "female" или "f", "male" или "m". Стойността по подразбиране не е дефинирана. Този параметър се поддържа от Amazon Polly, CereProc TTS, Descript TTS, Google TTS, IBM Watson TTS, iTranslate TTS, Microsoft Azure, Naver TTS. Ако е зададено име на глас, не е необходимо да се задава неговият пол.
-n име_на_гласа: Задава името на гласа за онлайн услугата TTS (ако се поддържа). Стандартната стойност не е дефинирана. Този параметър се поддържа от Amazon Polly, CereProc TTS, Descript TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure, Naver TTS.
-r скорост_на_речта: Задава скоростта на синтезираната реч (ако се поддържа).
По подразбиране е "1.0" (средна скорост на говорене).
Amazon Polly: от "0.20" до "2.00".
CereProc TTS: от "0.30" до "4.00".
Descript TTS, Naver TTS, Youdao TTS: от "0.70" до "2.00".
Google TTS, IBM Watson TTS, Microsoft Azure: от "0.10" до "3.00".
Google Cloud: от "0.25" до "4.00".
iTranslate TTS: от "0.50" до "2.00".
-p целочислена_стойност: Задава височината на гласа в диапазон от -20 до 20 (ако се поддържа). По подразбиране е 0.
Тази опция се поддържа от Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure.
-v целочислена_стойност: Задава силата на звука в обхват от 0 до 200 (по подразбиране е 100).
-st стил: Задава стила на говорене, специфичен за гласа. Гласът може да изразява емоции като веселие, съчувствие или спокойствие. Тази опция се поддържа от някои гласове в Microsoft Azure. Стиловете не са достъпни, ако се използва протоколът WebSocket за Microsoft Azure.
--style-degree степен_на_стил или -sd степен_на_стил: Задава интензивността на стила на говорене в диапазон от "0.01" до "2.00" (за стилове, поддържани от Microsoft Azure). По подразбиране стойността е "1.00". Опцията позволява да се зададе по-силен или по-мек стил, за да се направи речта по-изразителна или по-сдържана.
-m: Показва списъка с поддържаните езици (полове и имена на гласове, ако има такива) за онлайн услугата.
-f име_на_файл: Задава името на входния текстов файл. Командния ред може да съдържа повече от една -f опция.
-fl име_на_файл: Задава името на текстовия файл със списъка от входни файлове (по едно име на файл на ред). Командния ред може да съдържа повече от една -fl опция.
-w име_на_файл: Задава името на изходния файл в WAV формат.
-c: Текстът от клипборда се използва като входни данни.
-t текст: Взема текста от командния ред и го използва като входни данни. Командния ред може да съдържа повече от една -t опция.
-i: Получава текста от STDIN и го използва като входни данни.
-o: Записва звуковите данни в STDOUT. Ако е зададена тази опция, опцията -w бива игнорирана.
--encoding кодиране или -enc кодиране: Задава кодирането на входния текст ("ansi", "utf8" или "unicode"). Ако опцията не е зададена, програмата ще определи кодирането на текста.
--silence-begin целочислена_стойност или -sb целочислена_стойност: Задава времетраенето на тишината в началото на аудио файла (в милисекунди). По подразбиране е 0.
--silence-end целочислена_стойност или -se целочислена_стойност: Задава времетраенето на тишината в края на аудио файла (в милисекунди). По подразбиране е 0.
-ln целочислена_стойност: Избира ред от текстовия файл чрез номера на реда. Номерирането започва от "1". Интервалът от номера може да се използва за избиране на повече от един ред (например: "26-34"). Командния ред може да съдържа повече от една опция -ln.
-e целочислена_стойност: Задава продължителността на паузите между изреченията (в милисекунди). Стойността трябва да бъде по-малка от 20000. Ако опцията не е зададена, онлайн услугата ще използва стандартните паузи между изреченията. Този параметър се поддържа само от Microsoft Azure.
-d име_на_файл: Използва се речник за корекция на произношението (*.BXD, *.REX или *.DIC). Командния ред може да съдържа повече от една опция -d.
-lrc: Създава LRC файл. Текстът ще бъде синхронизиран с речта във файла с аудио изход.
-srt: Създава SRT файл. Субтитрите ще бъдат синхронизирани с речта във файла с аудио изход.
-sub: Входящият текст ще бъде обработен като субтитри. Тази опция може да бъде полезна, когато са зададени опциите -i или -c.
-host хост: Задава името на хост на прокси сървъра.
-port целочислена_стойност: Задава номера на порта на прокси сървъра.
-fr целочислена_стойност: Задава честотата на изходния аудио сигнал в КХц (8, 11, 16, 22, 24, 32, 44, 48). Ако опцията не е зададена, ще се използва стойността по подразбиране за избраната услуга.
-ae аудиокодиране: Задава аудио кодирането за данните, върнати от Google Cloud или Microsoft Azure ("linear16", "mp3" или "oggopus"). С тази настройка е възможно да се подобри качеството на звука. Опцията е достъпна, ако е зададен API ключ. Не се препоръчва да се използва без специална необходимост: прилагайте я само за тестови цели.
--ignore-square-brackets или -isb: Игнорира текста в [квадратни скоби].
--ignore-curly-brackets или -icb: Игнорира текста в {фигурни скоби}.
--ignore-angle-brackets или -iab: Игнорира текста в <ъглови скоби>.
--ignore-round-brackets или -irb: Игнорира текста в (кръгли скоби).
--ignore-url или -iu: Игнорира URL адресите.
--ignore-comments или -ic: Игнорира коментарите в текста. Едноредовите коментари започват с // и продължават до края на реда. Многоредовите коментари започват с /* и завършват с */.
-dp: Показва информация за напредъка в конзолен прозорец.
-cfg име_на_файл: Задава името на конфигурационния файл с опциите на командния ред (текстов файл, в който всеки ред съдържа една опция). Ако опцията не е зададена, ще се използва файлът bal4web.cfg в същата папка като програмата.
-h: Извежда на екрана списъка с поддържаните опции за командния ред.
--lrc-length целочислена_стойност: Задава максималната дължина на редовете в LRC файла (в брой знаци).
--lrc-fname име_на_файл: Задава името на LRC файла. Параметърът би бил полезен, когато е зададен параметъра -o.
--lrc-enc кодиране: Задава кодирането на LRC файла ("ansi", "utf8" или "unicode"). Кодирането по подразбиране е "ansi".
--lrc-offset целочислена_стойност: Задава времевото отместване за LRC файла (в милисекунди).
--lrc-artist текст: Задава ID тага за LRC файла: изпълнител.
--lrc-album текст: Задава ID тага за LRC файла: албум.
--lrc-title текст: Задава ID тага за LRC файла: заглавие.
--lrc-author текст: Задава ID тага за LRC файла: автор.
--lrc-creator текст: Задава ID тага за LRC файла: създател на LRC файла.
--lrc-sent: Вмъква празни редове след изреченията при създаването на LRC файла.
--lrc-para: Вмъква празни редове след параграфите при създаването на LRC файла.
--srt-length целочислена_стойност: Задава максималната дължина на редовете в SRT файла (в брой знаци).
--srt-fname име_на_файл: Задава името на SRT файла. Параметърът би бил полезен, когато е зададен параметъра -o.
--srt-enc кодиране: Задава кодирането на SRT файла ("ansi", "utf8" или "unicode"). Кодирането по подразбиране е "ansi".
--raw: Изходният аудио файл е в суров PCM формат; аудио данните не съдържат WAV заглавката. Този параметър се използва в комбинация с параметъра -o.
--ignore-length или -il: Пропуска определената дължина от данни в WAV заглавката. Този параметър се използва в комбинация с параметъра -o.
--wss: Използва протокола WebSocket за Microsoft Azure. Позволява подобряване на качеството на звука на аудио файловете (24 КХц вместо 16 КХц). Опцията се игнорира, ако е дефиниран абонаментният ключ за Microsoft Azure Cognitive Services. Използвайте опцията -m, за да проверите дали даден глас поддържа протокола WebSocket или не.
--sub-format текст: Задава формата на субтитрите ("srt", "lrc", "ssa", "ass", "smi" или "vtt"). Ако параметърът не е зададен, форматът ще бъде определен чрез файловото разширение.
--sub-fit или -sf: Автоматично увеличава скоростта, за да съвпадне с времевите интервали на субтитрите (когато програмата конвертира субтитри в аудио файл). The SoundTouch library will be used for changing tempo.
--sub-max целочислена_стойност или -sm целочислена_стойност: Задава максималната скорост на говорене в диапазон от 110% до 200% (когато програмата конвертира субтитри в аудио файл). Програмата автоматично ще увеличи скоростта на говорене, без да надвишава зададената стойност.

--aws-keyid текст или -ak текст: Sets AWS access key ID for the Amazon Polly. It is recommended to apply such key if you have it.
--aws-secret текст или -as текст: Sets AWS secret access key for the Amazon Polly.
--aws-region текст или -ar текст: Sets AWS region for the Amazon Polly.
--crv-email текст или -ce текст: Sets the email address used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such email if you have it.
--crv-pwd текст или -cp текст: Sets the password used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such password if you have it.
--gc-apikey текст или -gk текст: Sets API key ID for the Google Cloud. It is recommended to apply such key if you have it.
--ms-apikey текст или -mk текст: Sets the subscription key for the Microsoft Azure Cognitive Services. It is recommended to apply such key if you have it.
--ms-region текст или -mr текст: Sets the subscription region for the Microsoft Azure Cognitive Services.

Примери за команден ред

Създайте текстовия файл LANGUAGE.TXT със списъка на всички поддържани езици и полове за услугата Google TTS:

bal4web -s Google -m > language.txt

Преобразувайте текст от BOOK.TXT в реч и го запазете като аудио файл BOOK.WAV:

bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female

Преобразувайте субтитрите в реч и ги запазете като MOVIE.WAV:

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad --sub-fit

Пример за използване заедно с LAME.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3

Пример за използване заедно с OGGENC2.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg

Конфигурационен файл

Опциите за командния ред могат да бъдат съхранени в конфигурационен файл "bal4web.cfg" в същата папка, в която е и програмата.

Пример за конфигурационен файл:

-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8

Програмата може да използва комбинация от опции от конфигурационния файл и от командния ред.

Лиценз

Можете свободно да използвате и разпространявате софтуера за некомерсиални цели. За комерсиално използване или разпространение е необходимо да получите разрешение от притежателя на авторските права.