Sélectionner une langue
RSS
Donation

WMZ: Z087754155981 (USD)
WME: E110509803261 (EUR)

WebMoney

Balabolka Utilitaire pour les services de synthèse vocale

L'application en ligne de commande permet d'utiliser des services de synthèse vocale en ligne : les fichiers texte ou les sous-titres peuvent être convertis en fichiers audio. L'utilitaire peut être utilisé à des fins de test : il vous aidera à choisir un service de cloud computing qui répond à vos besoins. L'application distincte pour Yandex SpeechKit est disponible au téléchargement, car Yandex est une entreprise informatique russe étroitement liée au gouvernement.

Utilitaire Windows permettant d'utiliser la synthèse vocale en ligne

Services en ligne avec technologies vocales :

  • Google Cloud TTS
  • Amazon Polly
  • Baidu TTS
  • CereVoice Cloud
  • IBM Watson TTS
  • Iciba TTS
  • iTranslate TTS
  • Microsoft Azure
  • Naver TTS
  • OpenAI TTS
  • Youdao TTS
  • Yandex SpeechKit

Télécharger Balabolka (application pour les services en ligne)


Taille de fichier : Mo
 
Version : Changelog
 
Licence : Freeware
 
Système d'exploitation :
Utilitaire de ligne de commande pour Yandex SpeechKit : Télécharger ( Mo)
Le programme convertit le texte ou les sous-titres en fichiers audio en utilisant le service Yandex.
Pour effectuer des opérations via l'API Yandex, il est nécessaire de s'authentifier à l'aide d'une clé API.



Ligne de commande

L'utilitaire gère divers paramètres de ligne de commande afin de pouvoir enregistrer la parole sous forme de fichier audio. Les paramètres doivent être séparés par un espace et commencer par « - » (tiret). Les options peuvent apparaître dans n'importe quel ordre sur la ligne de commande, à condition qu'elles soient associées à leurs paramètres correspondants. Tous les paramètres sont insensibles à la casse. Utilisez la commande bal4web avec les options -? ou -h pour obtenir de l'aide sur la syntaxe et les paramètres de ligne de commande.


-s nom_du_service
Définit le nom du service TTS en ligne. ("google" ou "g", "amazon" ou "a", "baidu" ou "b", "cerevoice" ou "c", "ibm" ou "i", "iciba" ou "k", "itranslate" ou "t", "microsoft" ou "m", "naver" ou "n", "openai" ou "o", "youdao" ou "y"). La valeur par défaut est "google".
-l nom_de_langue
Définit le nom de la langue pour le service TTS en ligne. Le nom est une combinaison d'un code ISO 639 à deux lettres minuscules associé à une langue et d'un code ISO 3166 à deux lettres majuscules associé à un pays ou une région. Par exemple : fr-FR, en-US, de-DE. La valeur par défaut est "en-US".
Remarque : OpenAI TTS effectue l'identification de la langue du texte saisi, ce service ignore donc cette option pour le moment. OpenAI TTS peut reconnaître plusieurs dizaines de langues de manière autonome.
-g sexe
Définit le genre pour le service TTS en ligne (si le paramètre est pris en charge par le service). Les valeurs disponibles sont : "female" ou "f", "male" ou "m". La valeur par défaut n'est pas définie. Ce paramètre est pris en charge par les services suivants : Amazon Polly, CereProc TTS, Google TTS, IBM Watson TTS, iTranslate TTS, Microsoft Azure, Naver TTS, OpenAI TTS. Si un nom de voix est spécifié, il n'est pas nécessaire de définir son genre.
-n nom_de_voix
Définit le nom de la voix pour le service TTS en ligne (si pris en charge). La valeur par défaut n'est pas définie. Ce paramètre est pris en charge par les services : Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure, Naver TTS, OpenAI TTS.
-r débit_de_parole
Définit la vitesse de parole (si prise en charge).
La valeur par défaut est "1.0" (le débit de parole moyen oral).
Amazon Polly: de "0.20" à "2.00".
CereProc TTS: de "0.30" à "4.00".
Naver TTS, OpenAI TTS, Youdao TTS: de "0.70" à "2.00".
Google TTS, IBM Watson TTS, Microsoft Azure: de "0.10" à "3.00".
Google Cloud: de "0.25" à "4.00".
iTranslate TTS: de "0.50" à "2.00".
-p nombre_intégral
Définit la hauteur tonale dans une plage comprise entre -20 et 20 (si pris en charge). La valeur par défaut est 0. Cette option est prise en charge par Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure.
-v nombre_intégral
Définit le volume dans une plage comprise entre 0 et 200 (la valeur par défaut est 100).
-st style
Définit le style vocal spécifique à la voix. La voix peut exprimer des émotions telles que la gaieté, l'empathie ou le calme. Cette option est prise en charge par certaines voix dans Microsoft Azure. Les styles ne sont pas disponibles si le protocole WebSocket pour Microsoft Azure est utilisé.
--style-degree degré_de_style ou -sd degré_de_style
Définit l'intensité du style vocal dans une plage comprise entre "0.01" et "2.00" (pour les styles pris en charge par Microsoft Azure). La valeur par défaut est "1.00". Cette option permet de choisir un style plus fort ou plus doux afin de rendre le discours plus expressif ou plus modéré.
-m
Affiche la liste des langues prises en charge (noms des sexes et des voix, si disponibles) pour le service TTS en ligne.
-f nom_de_fichier
Spécifie le nom du fichier texte d'entrée. La ligne de commande peut contenir quelques options -f.
-fl nom_de_fichier
Ouvrir le fichier avec la liste des fichiers texte (un nom de fichier par ligne). La ligne de commande peut contenir quelques options -fl.
-w nom_de_fichier
Spécifie le nom du fichier de sortie au format WAV.
-c
Utilise le texte du presse-papiers.
-t texte
Utilise le texte de la ligne de commande. La ligne de commande peut contenir quelques options -t.
-i
Utilise le texte de flux d'entrée standard (STDIN).
-o
Enregistre les données audio dans le flux de sortie standard (STDOUT). Si l'option est spécifiée, l'option -w est ignorée.
--encoding encodage ou -enc encodage
L'encodage du texte de flux d'entrée standard ("ansi", "utf8" ou "unicode"). Si l'option n'est pas spécifiée, le programme détectera l'encodage du texte.
--silence-begin nombre_intégral ou -sb nombre_intégral
Spécifier la longueur de la pause en début du fichier audio (en millisecondes). La valeur par défaut est 0.
--silence-end nombre_intégral ou -se nombre_intégral
Spécifier la longueur de la pause en fin du fichier audio (en millisecondes). La valeur par défaut est 0.
-ln nombre_intégral
Sélectionner une ligne du fichier texte à l'aide de son numéro. La numérotation des lignes commence par "1". Pour sélectionner plusieurs lignes, spécifiez les numéros de la ligne de départ et de celle d'achèvement dans le texte (par exemple, "26–34"). La ligne de commande peut contenir quelques options -ln.
-e nombre_intégral
Définit la durée des pauses entre les phrases (en millisecondes). La valeur doit être inférieure à 20 000. Si cette option n'est pas spécifiée, le service utilisera les pauses par défaut entre les phrases. Ce paramètre est pris en charge uniquement par Microsoft Azure.
-d nom_de_fichier
Utilise un dictionnaire pour la correction de la prononciation (fichier *.BXD, *.DIC ou *.REX). La ligne de commande peut contenir quelques options -d.
-lrc
Crée le fichier LRC. Le texte sera synchronisé avec la parole dans le fichier audio de sortie.
-srt
Crée le fichier SRT. Les sous-titres seront synchronisés avec la parole dans le fichier audio de sortie.
-sub
Le texte constitue des sous-titres et doit être converti en fichier audio, compte tenu des pauses spécifiées. Le paramètre peut être utile lorsque les options -i ou -c sont spécifiées en ligne de commande.
-host nom_hôte
Définit le nom d'hôte du serveur proxy.
-port nombre_intégral
Définit le numéro de port du serveur proxy.
-fr nombre_intégral
Sélectionner la fréquence d’échantillonnage audio de sortie en kHz (8, 11, 16, 22, 24, 32, 44, 48). Si le paramètre n’est pas spécifié, la valeur par défaut de la voix sélectionnée sera utilisée.
-ae encodage_audio
Définit le codage audio pour les données renvoyées par Google Cloud ou Microsoft Azure ("linear16", "mp3" ou "oggopus"). Ce paramètre permet d'améliorer la qualité sonore. L'option est disponible si la clé API est spécifiée. Il n'est pas recommandé de l'utiliser sans nécessité particulière : appliquez-la uniquement à des fins de test.
--ignore-square-brackets ou -isb
Ignorer le texte entre [les crochets].
--ignore-curly-brackets ou -icb
Ignorer le texte entre {les accolades}.
--ignore-angle-brackets ou -iab
Ignorer le texte entre <les crochets angulaires>.
--ignore-round-brackets ou -irb
Ignorer le texte entre (les parenthèses).
--ignore-url ou -iu
Ignorer les adresses URL.
--ignore-comments or -ic
Ignorer les commentaires dans le texte. Les commentaires sur une seule ligne commencent par // et se poursuivent jusqu’à la fin de la ligne. Les commentaires multilignes commencent par /* et se terminent par */.
-dp
Afficher les informations sur l’avancement dans la fenêtre de console.
-cfg nom_de_fichier
Définit le nom du fichier de configuration contenant les options de ligne de commande (un fichier texte où chaque ligne contient une option). Si l'option n'est pas spécifiée, le fichier bal4web.cfg situé dans le même dossier que l'utilitaire sera utilisé.
-h
Affiche la liste des options de ligne de commande.
--lrc-length nombre_intégral
Spécifie la longueur maximale des lignes de texte pour le fichier LRC (en caractères).
--lrc-fname nom_de_fichier
Spécifie le nom du fichier LRC. L'option peut être utile lorsque l'option -o est spécifiée en ligne de commande.
--lrc-enc encodage
Spécifie l'encodage pour le fichier LRC ("ansi", "utf8" ou "unicode"). La valeur par défaut est "ansi".
--lrc-offset nombre_intégral
Spécifie le décalage temporel pour le fichier LRC (en millisecondes).
--lrc-artist texte
Spécifie une balise ID pour le fichier LRC : artiste.
--lrc-album texte
Spécifie une balise ID pour le fichier LRC : album.
--lrc-title texte
Spécifie une balise ID pour le fichier LRC : titre.
--lrc-author texte
Spécifie une balise ID pour le fichier LRC : auteur.
--lrc-creator texte
Spécifie une balise ID pour le fichier LRC : créateur du fichier LRC.
--lrc-sent
Insérer des lignes vides après les phrases dans le fichier LRC.
--lrc-para
Insérer des lignes vides après les alinéas dans le fichier LRC.
--srt-length nombre_intégral
Spécifie la longueur maximale des lignes de texte pour le fichier SRT (en caractères).
--srt-fname nom_de_fichier
Spécifie le nom du fichier SRT. L'option peut être utile lorsque l'option -o est spécifiée en ligne de commande.
--srt-enc encodage
Spécifie l'encodage pour le fichier SRT ("ansi", "utf8" ou "unicode"). La valeur par défaut est "ansi".
--raw
Sortie des données audio comme fichiers PCM brut ; les données audio sont sans l'en-tête WAV. L'option est utilisée avec l'option -o.
--ignore-length ou -il
Omet la longueur des données audio dans l'en-tête WAV. L'option est utilisée avec l'option -o.
--wss
Utilise le protocole WebSocket pour Microsoft Azure. Il permet d'améliorer la qualité sonore des fichiers audio (24 kHz au lieu de 16 kHz). L'option est ignorée si la clé d'abonnement pour les services cognitifs Microsoft Azure est définie. Utilisez l'option -m pour vérifier si une voix prend en charge le protocole WebSocket ou non.
--sub-format texte
Le format des sous-titres ("srt", "lrc", "ssa", "ass", "smi" ou "vtt"). Si le paramètre n'est pas spécifié, le format est déterminé d'après l'extension du fichier des sous-titres.
--sub-fit ou -sf
Augmente automatiquement la vitesse de lecture pour s'adapter aux intervalles de temps (lorsque le programme convertit les sous-titres en fichier audio). La bibliothèque SoundTouch sera utilisée pour modifier la vitesse.
--sub-max nombre_intégral ou -sm nombre_intégral
Définit la vitesse maximale de la parole dans une plage comprise entre 110% et 200% (lorsque le programme convertit les sous-titres en fichier audio). L'utilitaire augmentera automatiquement la vitesse de la parole sans dépasser la valeur définie.
 

--aws-keyid texte ou -ak texte
Sets AWS access key ID for the Amazon Polly. It is recommended to apply such key if you have it.
--aws-secret texte ou -as texte
Sets AWS secret access key for the Amazon Polly.
--aws-region texte ou -ar texte
Sets AWS region for the Amazon Polly.
--crv-email texte ou -ce texte
Sets the email address used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such email if you have it.
--crv-pwd texte ou -cp texte
Sets the password used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such password if you have it.
--gc-apikey texte ou -gk texte
Sets API key ID for the Google Cloud. It is recommended to apply such key if you have it.
--ms-apikey texte ou -mk texte
Sets the subscription key for the Microsoft Azure Cognitive Services. It is recommended to apply such key if you have it.
--ms-region texte ou -mr texte
Sets the subscription region for the Microsoft Azure Cognitive Services.


Exemples

Créer le fichier texte LANGUAGE.TXT avec la liste de toutes les langues prises en charge par le service Google TTS :

bal4web -s Google -m > language.txt



Convertir le texte de BOOK.TXT en parole et l'enregistrer dans le fichier BOOK.WAV :

bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female



Convertir les sous-titres en paroles et les enregistrer dans le fichier MOVIE.WAV :

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad --sub-fit



Un exemple de l'utilisation de l'application avec l'utilitaire LAME.EXE :

bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3



Un exemple de l'utilisation de l'application avec l'utilitaire OGGENC2.EXE :

bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg




Fichier de configuration

Les options de ligne de commande peuvent être enregistrées en tant que fichier de configuration « bal4web.cfg » dans le même dossier que l'application console.

Exemple de fichier de configuration :

-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8

Le programme peut combiner les options du fichier de configuration et celles de la ligne de commande.




Licence

Droits d'utilisation non commerciale de l’application :

  • personnes physiques – sans restriction,
  • personnes morales – avec les restrictions stipulées dans l'Accord de Licence du logiciel Balabolka.

L’utilisation commerciale du logiciel demande l'autorisation du détenteur du copyright.