Изберете език
RSS
Дарение

WMZ: Z087754155981 (USD)
WME: E110509803261 (EUR)

WebMoney

Balabolka Инструмент за командния ред за онлайн използване на текст в реч

Приложението за командния ред позволява да се използват онлайн услуги за преобразуване на текст в реч: текстови файлове или субтитри могат да бъдат преобразувани в аудио файлове. Утилитата може да се използва за тестови цели: тя ще ви помогне да изберете облачна услуга, която отговаря на вашите нужди. Отделното приложение за Yandex SpeechKit е достъпно за изтегляне, тъй като Yandex е руска ИТ компания с тесни връзки с правителството.

Утилита за използване на онлайн синтез на реч

Онлайн услуги с речеви технологии:

  • Google Cloud TTS
  • Amazon Polly
  • Baidu TTS
  • CereVoice Cloud
  • Descript TTS
  • IBM Watson TTS
  • Iciba TTS
  • iTranslate TTS
  • Microsoft Azure
  • Naver TTS
  • OpenAI TTS
  • Youdao TTS
  • Yandex SpeechKit

Изтегляне на Balabolka (инструмент за онлайн синтез на реч)


Размер: MB
 
Версия: Списък с промени
 
Лиценз: Безплатен (Freeware)
 
Операционни системи:
Инструмент за командния ред за използване на Yandex SpeechKit: Изтегляне
Програмата преобразува текст или субтитри в аудио файлове с помощта на услугите на Yandex. За извършване на операции чрез ППИ на Yandex трябва да се направи удостоверяване с ППИ ключ.



Команден ред

Конзолната програма обработва различни параметри на командния ред за записване на речта като аудиофайл. Опциите за командния ред използват синтаксиса "balweb.exe [опции ...]", всички параметри трябва да бъдат разделени един от друг чрез интервал. Опциите могат да бъдат подреждани в произволен ред в командния ред, стига да са сдвоени със свързаните с тях параметри. Използвайте командата "balweb -?" за да получите помощ за параметрите и синтаксиса на командния ред.


-s име_на_услуга
Задава името на онлайн услугата за преобразуване на текст в реч ("google" или "g", "amazon" или "a", "baidu" или "b", "cerevoice" или "c", "descript" или "d", "ibm" или "i", "iciba" или "k", "itranslate" или "t", "microsoft" или "m", "naver" или "n", "openai" или "o", "youdao" или "y"). По подразбиране е "google".
-l име_на_език
Задава името на езика за онлайн услугата TTS. Името е комбинация от двубуквен код ISO 639 с малки букви, свързан с езика, и двубуквен код ISO 3166 с главни букви, свързан с държава или регион. Например: bg-BG, de-DE, ru-RU. По подразбиране е "en-US".
Забележка: Descript TTS и OpenAI TTS извършват идентифициране на езика за въведения текст, така че тези услуги понастоящем игнорират тази опция. Тези услуги могат да разпознават няколко десетки езика самостоятелно.
-g пол
Задава пола за онлайн услугата TTS (ако се поддържа). Възможните стойности: "female" или "f", "male" или "m". Стойността по подразбиране не е дефинирана. Този параметър се поддържа от Amazon Polly, CereProc TTS, Descript TTS, Google TTS, IBM Watson TTS, iTranslate TTS, Microsoft Azure, Naver TTS. Ако е зададено име на глас, не е необходимо да се задава неговият пол.
-n име_на_гласа
Задава името на гласа за онлайн услугата TTS (ако се поддържа). Стандартната стойност не е дефинирана. Този параметър се поддържа от Amazon Polly, CereProc TTS, Descript TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure, Naver TTS.
-r скорост_на_речта
Задава скоростта на синтезираната реч (ако се поддържа).
По подразбиране е "1.0" (средна скорост на говорене).
Amazon Polly: от "0.20" до "2.00".
CereProc TTS: от "0.30" до "4.00".
Descript TTS, Naver TTS, Youdao TTS: от "0.70" до "2.00".
Google TTS, IBM Watson TTS, Microsoft Azure: от "0.10" до "3.00".
Google Cloud: от "0.25" до "4.00".
iTranslate TTS: от "0.50" до "2.00".
-p целочислена_стойност
Задава височината на гласа в диапазон от -20 до 20 (ако се поддържа). По подразбиране е 0.
Тази опция се поддържа от Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure.
-v целочислена_стойност
Задава силата на звука в обхват от 0 до 200 (по подразбиране е 100).
-st стил
Задава стила на говорене, специфичен за гласа. Гласът може да изразява емоции като веселие, съчувствие или спокойствие. Тази опция се поддържа от някои гласове в Microsoft Azure. Стиловете не са достъпни, ако се използва протоколът WebSocket за Microsoft Azure.
--style-degree степен_на_стил или -sd степен_на_стил
Задава интензивността на стила на говорене в диапазон от "0.01" до "2.00" (за стилове, поддържани от Microsoft Azure). По подразбиране стойността е "1.00". Опцията позволява да се зададе по-силен или по-мек стил, за да се направи речта по-изразителна или по-сдържана.
-m
Показва списъка с поддържаните езици (полове и имена на гласове, ако има такива) за онлайн услугата.
-f име_на_файл
Задава името на входния текстов файл. Командния ред може да съдържа повече от една -f опция.
-fl име_на_файл
Задава името на текстовия файл със списъка от входни файлове (по едно име на файл на ред). Командния ред може да съдържа повече от една -fl опция.
-w име_на_файл
Задава името на изходния файл в WAV формат.
-c
Текстът от клипборда се използва като входни данни.
-t текст
Взема текста от командния ред и го използва като входни данни. Командния ред може да съдържа повече от една -t опция.
-i
Получава текста от STDIN и го използва като входни данни.
-o
Записва звуковите данни в STDOUT. Ако е зададена тази опция, опцията -w бива игнорирана.
--encoding кодиране или -enc кодиране
Задава кодирането на входния текст ("ansi", "utf8" или "unicode"). Ако опцията не е зададена, програмата ще определи кодирането на текста.
--silence-begin целочислена_стойност или -sb целочислена_стойност
Задава времетраенето на тишината в началото на аудио файла (в милисекунди). По подразбиране е 0.
--silence-end целочислена_стойност или -se целочислена_стойност
Задава времетраенето на тишината в края на аудио файла (в милисекунди). По подразбиране е 0.
-ln целочислена_стойност
Избира ред от текстовия файл чрез номера на реда. Номерирането започва от "1". Интервалът от номера може да се използва за избиране на повече от един ред (например: "26-34"). Командния ред може да съдържа повече от една опция -ln.
-e целочислена_стойност
Задава продължителността на паузите между изреченията (в милисекунди). Стойността трябва да бъде по-малка от 20000. Ако опцията не е зададена, онлайн услугата ще използва стандартните паузи между изреченията. Този параметър се поддържа само от Microsoft Azure.
-d име_на_файл
Използва се речник за корекция на произношението (*.BXD, *.REX или *.DIC). Командния ред може да съдържа повече от една опция -d.
-lrc
Създава LRC файл. Текстът ще бъде синхронизиран с речта във файла с аудио изход.
-srt
Създава SRT файл. Субтитрите ще бъдат синхронизирани с речта във файла с аудио изход.
-sub
Входящият текст ще бъде обработен като субтитри. Тази опция може да бъде полезна, когато са зададени опциите -i или -c.
-host хост
Задава името на хост на прокси сървъра.
-port целочислена_стойност
Задава номера на порта на прокси сървъра.
-fr целочислена_стойност
Задава честотата на изходния аудио сигнал в КХц (8, 11, 16, 22, 24, 32, 44, 48). Ако опцията не е зададена, ще се използва стойността по подразбиране за избраната услуга.
-ae аудиокодиране
Задава аудио кодирането за данните, върнати от Google Cloud или Microsoft Azure ("linear16", "mp3" или "oggopus"). С тази настройка е възможно да се подобри качеството на звука. Опцията е достъпна, ако е зададен API ключ. Не се препоръчва да се използва без специална необходимост: прилагайте я само за тестови цели.
--ignore-square-brackets или -isb
Игнорира текста в [квадратни скоби].
--ignore-curly-brackets или -icb
Игнорира текста в {фигурни скоби}.
--ignore-angle-brackets или -iab
Игнорира текста в <ъглови скоби>.
--ignore-round-brackets или -irb
Игнорира текста в (кръгли скоби).
--ignore-url или -iu
Игнорира URL адресите.
--ignore-comments или -ic
Игнорира коментарите в текста. Едноредовите коментари започват с // и продължават до края на реда. Многоредовите коментари започват с /* и завършват с */.
-dp
Показва информация за напредъка в конзолен прозорец.
-cfg име_на_файл
Задава името на конфигурационния файл с опциите на командния ред (текстов файл, в който всеки ред съдържа една опция). Ако опцията не е зададена, ще се използва файлът bal4web.cfg в същата папка като програмата.
-h
Извежда на екрана списъка с поддържаните опции за командния ред.
--lrc-length целочислена_стойност
Задава максималната дължина на редовете в LRC файла (в брой знаци).
--lrc-fname име_на_файл
Задава името на LRC файла. Параметърът би бил полезен, когато е зададен параметъра -o.
--lrc-enc кодиране
Задава кодирането на LRC файла ("ansi", "utf8" или "unicode"). Кодирането по подразбиране е "ansi".
--lrc-offset целочислена_стойност
Задава времевото отместване за LRC файла (в милисекунди).
--lrc-artist текст
Задава ID тага за LRC файла: изпълнител.
--lrc-album текст
Задава ID тага за LRC файла: албум.
--lrc-title текст
Задава ID тага за LRC файла: заглавие.
--lrc-author текст
Задава ID тага за LRC файла: автор.
--lrc-creator текст
Задава ID тага за LRC файла: създател на LRC файла.
--lrc-sent
Вмъква празни редове след изреченията при създаването на LRC файла.
--lrc-para
Вмъква празни редове след параграфите при създаването на LRC файла.
--srt-length целочислена_стойност
Задава максималната дължина на редовете в SRT файла (в брой знаци).
--srt-fname име_на_файл
Задава името на SRT файла. Параметърът би бил полезен, когато е зададен параметъра -o.
--srt-enc кодиране
Задава кодирането на SRT файла ("ansi", "utf8" или "unicode"). Кодирането по подразбиране е "ansi".
--raw
Изходният аудио файл е в суров PCM формат; аудио данните не съдържат WAV заглавката. Този параметър се използва в комбинация с параметъра -o.
--ignore-length или -il
Пропуска определената дължина от данни в WAV заглавката. Този параметър се използва в комбинация с параметъра -o.
--wss
Използва протокола WebSocket за Microsoft Azure. Позволява подобряване на качеството на звука на аудио файловете (24 КХц вместо 16 КХц). Опцията се игнорира, ако е дефиниран абонаментният ключ за Microsoft Azure Cognitive Services. Използвайте опцията -m, за да проверите дали даден глас поддържа протокола WebSocket или не.
--sub-format текст
Задава формата на субтитрите ("srt", "lrc", "ssa", "ass", "smi" или "vtt"). Ако параметърът не е зададен, форматът ще бъде определен чрез файловото разширение.
--sub-fit или -sf
Автоматично увеличава скоростта, за да съвпадне с времевите интервали на субтитрите (когато програмата конвертира субтитри в аудио файл). The SoundTouch library will be used for changing tempo.
--sub-max целочислена_стойност или -sm целочислена_стойност
Задава максималната скорост на говорене в диапазон от 110% до 200% (когато програмата конвертира субтитри в аудио файл). Програмата автоматично ще увеличи скоростта на говорене, без да надвишава зададената стойност.
 

--aws-keyid текст или -ak текст
Sets AWS access key ID for the Amazon Polly. It is recommended to apply such key if you have it.
--aws-secret текст или -as текст
Sets AWS secret access key for the Amazon Polly.
--aws-region текст или -ar текст
Sets AWS region for the Amazon Polly.
--crv-email текст или -ce текст
Sets the email address used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such email if you have it.
--crv-pwd текст или -cp текст
Sets the password used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such password if you have it.
--gc-apikey текст или -gk текст
Sets API key ID for the Google Cloud. It is recommended to apply such key if you have it.
--ms-apikey текст или -mk текст
Sets the subscription key for the Microsoft Azure Cognitive Services. It is recommended to apply such key if you have it.
--ms-region текст или -mr текст
Sets the subscription region for the Microsoft Azure Cognitive Services.


Примери за команден ред

Създайте текстовия файл LANGUAGE.TXT със списъка на всички поддържани езици и полове за услугата Google TTS:

bal4web -s Google -m > language.txt



Преобразувайте текст от BOOK.TXT в реч и го запазете като аудио файл BOOK.WAV:

bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female



Преобразувайте субтитрите в реч и ги запазете като MOVIE.WAV:

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad --sub-fit



Пример за използване заедно с LAME.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3



Пример за използване заедно с OGGENC2.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg




Конфигурационен файл

Опциите за командния ред могат да бъдат съхранени в конфигурационен файл "bal4web.cfg" в същата папка, в която е и програмата.

Пример за конфигурационен файл:

-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8

Програмата може да използва комбинация от опции от конфигурационния файл и от командния ред.




Лиценз

Можете свободно да използвате и разпространявате софтуера за некомерсиални цели. За комерсиално използване или разпространение е необходимо да получите разрешение от притежателя на авторските права.