Utilidad para TTS en línea
Donación
WMZ: Z087754155981 (USD) WME: E110509803261 (EUR)
|
La aplicación de línea de comandos permite utilizar servicios de conversión de texto a voz en línea: los archivos de texto o los subtítulos se pueden convertir en archivos de audio. La utilidad se puede utilizar con fines de prueba: le ayudará a elegir un servicio de computación en la nube que satisfaga sus necesidades. La aplicación independiente para Yandex SpeechKit está disponible para su descarga, ya que Yandex es la empresa rusa de TI con estrechos vínculos con el gobierno.
 |
Servicios en línea con tecnologías de voz:
- Google Cloud TTS
- Amazon Polly
- Baidu TTS
- CereVoice Cloud
- IBM Watson TTS
- Iciba TTS
- iTranslate TTS
- Microsoft Azure
- Naver TTS
- OpenAI TTS
- Youdao TTS
- Yandex SpeechKit
|
Descargar la aplicación para utilizar los servicios en línea
Tamaño: MB |
|
Versión: Lista de cambios |
|
Licencia: Gratuito (Freeware) |
|
Sistema operativo: |
Utilidad de línea de comandos para utilizar Yandex SpeechKit: Descargar ( MB)
El programa convierte texto o subtítulos en archivos de audio utilizando el servicio Yandex.
Para realizar operaciones a través de la API de Yandex, es necesario autenticarse utilizando una clave API.
Línea de comandos
La utilidad maneja varios parámetros de línea de comandos para poder guardar el discurso como un archivo de audio. Las opciones son separadas por un espacio y comienzan con un signo "-" (guión). Se puede obtener una lista completa de opciones de la línea de comandos tecleando bal4web con opciones -? o -h.
- -s nombre_del_servicio
- Definir el nombre del servicio TTS en línea ("google" o "g", "amazon" o "a", "baidu" o "b", "cerevoice" o "c", "ibm" o "i", "iciba" o "k", "itranslate" o "t", "microsoft" o "m", "naver" o "n", "openai" o "o", "youdao" o "y"). El valor predeterminado es "google".
- -l nombre_del_idioma
- Establece el nombre del idioma para el servicio TTS en línea. El nombre es una combinación del código ISO 639 de dos letras en minúscula asociado a un idioma y el código ISO 3166 de dos letras en mayúscula asociado a un país o región. Por ejemplo: es-ES, de-DE, fr-FR. El valor predeterminado es "en-US".
Nota: OpenAI TTS realiza la identificación del idioma del texto introducido, por lo que el servicio ignora ahora esta opción. OpenAI TTS puede reconocer varias docenas de idiomas por sí mismo.
- -g género
- Sets the gender for the online TTS service (if supported). The available values: "female" or "f", "male" or "m". The default value is not defined. This parameter is supported by services: Amazon Polly, CereProc TTS, Google TTS, IBM Watson TTS, iTranslate TTS, Microsoft Azure, Naver TTS, OpenAI TTS. If a voice name is specified, there is no need to set its gender.
- -n nombre_de_voz
- Sets the voice name for the online TTS service (if supported). The default value is not defined. This parameter is supported by services Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure, Naver TTS, OpenAI TTS.
- -r velocidad_del_habla
- Sets the rate of the synthesized speech (if supported).
El valor predeterminado es "1.0" (la velocidad media del habla). Amazon Polly: from "0.20" to "2.00". CereProc TTS: from "0.30" to "4.00". Naver TTS, OpenAI TTS, Youdao TTS: from "0.70" to "2.00". Google TTS, IBM Watson TTS, Microsoft Azure: from "0.10" to "3.00". Google Cloud: from "0.25" to "4.00". iTranslate TTS: from "0.50" to "2.00".
- -p entero
- Sets the speaking pitch in a range of -20 to 20 (if supported). El valor predeterminado es 0.
This option is supported by Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure.
- -v entero
- Establece el volumen en el rango de 0 a 200 (el valor predeterminado es 100).
- -st estilo
- Sets the voice-specific speaking style. The voice can express emotions like cheerfulness, empathy or calmness. This option is supported by some voices in Microsoft Azure. Styles are not available if the WebSocket protocol for Microsoft Azure is used.
- --style-degree grado_del_estilo o -sd grado_del_estilo
- Sets the intensity of the speaking style in a range of "0.01" to "2.00" (for styles supported by Microsoft Azure). The default is "1.00". The option allows to specify a stronger or softer style to make the speech more expressive or subdued.
- -m
- Prints the list of supported languages (genders and voices' names, if available) for the online TTS service.
- -f archivo_de_texto
- Establece el nombre del archivo de texto de entrada. La línea de comandos puede contener varias opciones -f.
- -fl nombre_de_archivo
- Establece el nombre del archivo de texto con la lista de archivos de entrada (un nombre de archivo por línea). La línea de comandos puede contener varias opciones -fl.
- -w archivo_de_onda
- Establece el nombre del archivo de salida en formato WAV.
- -c
- Toma como entrada el texto del portapapeles.
- -t texto
- El texto de entrada se puede tomar de la línea de comandos. La línea de comandos puede contener varias opciones -t.
- -i
- Toma el texto de entrada de STDIN.
- -o
- Escribe los datos sonoros en STDOUT. Si se especifica la opción, la opción -w se ignora.
- --encoding codificación o -enc codificación
- Establece la codificación del texto de entrada ("ansi", "utf8" o "unicode"). Si no se especifica la opción, el programa detectará la codificación del texto.
- --silence-begin entero o -sb entero
- Ajusta la longitud del silencio al principio del archivo de audio (en milisegundos).
El valor predeterminado es 0.
- --silence-end entero o -se entero
- Ajusta la longitud del silencio al final del archivo de audio (en milisegundos).
El valor predeterminado es 0.
- -ln entero
- Selecciona una línea del archivo de texto empleando un número de línea. La numeración de las líneas empieza por "1". Para seleccionar más de una línea se puede emplear el intervalo de números (por ejemplo, "26-34"). La línea de comandos puede contener varias opciones -ln.
- -e entero
- Establece la duración de las pausas entre frases (en milisegundos). El valor debe ser inferior a 20000. Si no se especifica esta opción, el servicio utilizará las pausas predeterminadas entre frases. Este parámetro solo es compatible con Microsoft Azure.
- -d nombre_de_archivo
- Usa un diccionario para la corrección de la pronunciación (*.BXD, *.REX o *.DIC). La línea de comandos puede contener varias opciones -d.
- -lrc
- Crea el archivo LRC utilizando el texto de entrada. El texto se sincronizará con el habla en el archivo de audio.
- -srt
- Crea el archivo SRT utilizando el texto de entrada. Los subtítulos se sincronizarán con la voz del archivo de audio.
- -sub
- El texto se procesará como subtítulos. La opción puede ser útil al especificar las opciones -i o -c.
- -host nombre_de_host
- Definir el nombre de host del servidor proxy.
- -port entero
- Definir el número de puerto del servidor proxy.
- -fr entero
- Establece la frecuencia de muestreo de la salida de audio en kHz (8, 11, 16, 22, 24, 32, 44, 48). Si no se especifica la opción, se utilizará el valor predeterminado de la voz seleccionada.
- -ae codificación_de_audio
- Establece la codificación de audio para los datos devueltos por Google Cloud o Microsoft Azure ("linear16", "mp3" u "oggopus"). Con esta configuración, es posible mejorar la calidad del sonido. La opción está disponible si se especifica la clave API. No se recomienda su uso sin una necesidad especial: aplíquela solo con fines de prueba.
- --ignore-square-brackets o -isb
- Ignorar el texto entre [corchetes cuadrados].
- --ignore-curly-brackets o -icb
- Ignorar el texto entre {llaves}.
- --ignore-angle-brackets o -iab
- Ignorar el texto entre <corchetes angulares>.
- --ignore-round-brackets o -irb
- Ignorar texto entre (corchetes redondos).
- --ignore-url o -iu
- Ignorar las URL dentro del texto.
- --ignore-comments or -ic
- Omite los comentarios. Los comentarios de una sola línea comienzan con // y continúan hasta el final de la línea. Los comentarios de varias líneas comienzan con /* y terminan con */.
- -dp
- Muestra información del progreso en una ventana de la consola.
- -cfg nombre_de_archivo
- Establece el nombre del archivo de configuración con las opciones de la línea de comandos (un archivo de texto en el que cada línea contiene una opción). Si no se especifica la opción, se utilizará el archivo bal4web.cfg que se encuentra en la misma carpeta que la utilidad.
- -h
- Muestra la lista de opciones de línea de comandos disponibles.
- --lrc-length entero
- Ajusta la longitud máxima de líneas para el archivo LRC (en caracteres).
- --lrc-fname nombre_de_archivo
- Establece el nombre del archivo LRC. La opción puede ser útil cuando se especifica la opción -o.
- --lrc-enc codificación
- Establece la codificación del archivo LRC ("ansi", "utf8" o "unicode"). El valor predeterminado es "ansi".
- --lrc-offset entero
- Ajusta el desplazamiento del tiempo para el archivo LRC (en milisegundos).
- --lrc-artist texto
- Establece la etiqueta de ID para el archivo LRC: intérprete.
- --lrc-album texto
- Establece la etiqueta de ID para el archivo LRC: álbum.
- --lrc-title texto
- Establece la etiqueta de ID para el archivo LRC: título.
- --lrc-author texto
- Establece la etiqueta de ID para el archivo LRC: autor.
- --lrc-creator texto
- Establece la etiqueta de ID para el archivo LRC: creador del archivo LRC.
- --lrc-sent
- Inserta líneas en blanco después de las frases en el archivo LRC.
- --lrc-para
- Inserta líneas en blanco después de los párrafos en el archivo LRC.
- --srt-length entero
- Ajusta la longitud máxima de líneas para el archivo SRT (en caracteres).
- --srt-fname nombre_de_archivo
- Establece el nombre del archivo SRT. La opción puede ser útil cuando se especifica la opción -o.
- --srt-enc codificación
- Establece la codificación del archivo SRT ("ansi", "utf8" o "unicode"). El valor predeterminado es "ansi".
- --raw
- Grabar los datos de audio en el formato RAW PCM; los datos no contienen el encabezado del formato WAV. La opción se utiliza junto con la opción -o.
- --ignore-length o -il
- No grabar la dimensión de los datos de audio en el encabezado del formato WAV. La opción se utiliza junto con la opción -o.
- --wss
- Utilice el protocolo WebSocket para Microsoft Azure. Permite mejorar la calidad del sonido de los archivos de audio (24 kHz en lugar de 16 kHz). La opción se ignora si se define la clave de suscripción para Microsoft Azure Cognitive Services. Utilice la opción -m para comprobar si una voz es compatible con el protocolo WebSocket o no.
- --sub-format texto
- Establece el formato de subtítulos ("srt", "lrc", "ssa", "ass", "smi" o "vtt"). Si no se especifica la opción, el formato se definirá acorde a la extensión del archivo.
- --sub-fit o -sf
- Automatically increases the speech rate to fit time intervals (when the program converts subtitles to audio file). The SoundTouch library will be used for changing tempo.
- --sub-max entero o -sm entero
- Sets the maximal rate of speech in a range of 110% to 200% (when the program converts subtitles to audio file). The program will automatically increase the speech rate without exceeding the set rate value.
- --aws-keyid texto o -ak texto
- Sets AWS access key ID for the Amazon Polly. It is recommended to apply such key if you have it.
- --aws-secret texto o -as texto
- Sets AWS secret access key for the Amazon Polly.
- --aws-region texto o -ar texto
- Sets AWS region for the Amazon Polly.
- --crv-email texto o -ce texto
- Sets the email address used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such email if you have it.
- --crv-pwd texto o -cp texto
- Sets the password used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such password if you have it.
- --gc-apikey texto o -gk texto
- Sets API key ID for the Google Cloud. It is recommended to apply such key if you have it.
- --ms-apikey texto o -mk texto
- Sets the subscription key for the Microsoft Azure Cognitive Services. It is recommended to apply such key if you have it.
- --ms-region texto o -mr texto
- Sets the subscription region for the Microsoft Azure Cognitive Services.
Ejemplos de comandos
Cree el archivo de texto LANGUAGE.TXT con la lista de todos los idiomas y géneros compatibles con el servicio TTS de Google:
bal4web -s Google -m > language.txt
Convierta el texto de BOOK.TXT en voz y guárdelo como el archivo de audio BOOK.WAV:
bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female
Convertir subtítulos a voz y guardar como MOVIE.WAV:
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad --sub-fit
Ejemplo de uso junto con LAME.EXE:
bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3
Ejemplo de uso junto con OGGENC2.EXE:
bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg
Archivo de configuración
Se puede guardar el archivo de configuración "bal4web.cfg" en la misma carpeta que la aplicación de consola.
Un ejemplo del contenido del archivo:
-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8
|
El programa puede combinar opciones del archivo de configuración y de la línea de comandos.
Licencia
Puede utilizar y distribuir el software para fines no comerciales. Para uso o distribución comercial, debe obtener el permiso del titular de los derechos de autor.
|