Texto a voz y GNU/Linux en 2026

2026-07-02

Con mi resto visual, una de las opciones de accesibilidad que más uso es la lectura de texto en voz alta («Texto a voz», «Text to speech» o TTS). En los sistemas de Apple viene VoiceOver integrado y hay apps como VoiceDream que lo convierten en una característica cómoda y deseable, con voces que suenan muy bien (todas privativas, claro). Pero en GNU/Linux la cosa cambia. En esta entrada repaso algunas de las opciones que he encontrado.

El problema de base

Desde mi vuelta a GNU/Linux he probado Fedora y KDE Neon, y ambos tienen como sistema de texto a voz un motor llamado espeak-ng. Las voces que ofrece son, por decirlo suavemente, muy poco naturales.

Al buscar por el asunto, rápidamente encontramos speech-dispatcher, con el que podemos encontrar otros motores. Sin embargo, en mi experiencia no era fácil de configurar ni sabía de voces en español.

Otro sistema que me recomendaron en el fediverso es Piper, pero no le dediqué el suficiente tiempo como para configurarlo.

(Nótese que, de normal, a día de hoy soy bastante vago con mi sistema operativo: si no encuentro una opción no dedico tiempo a investigar para configurarlo.)

Algunas aplicaciones dedicadas

Dado que hay motores de IA generativa que ofrecen instalar voces en local, han aparecido varias aplicaciones que se pueden instalar en nuestro sistema para acceder a voces más naturales.

Parlou es una aplicación con diseño de Gnome que tiene de base el sistema Piper y tiene voces para distintos idiomas, incluido el español. Tiene opciones de configuración como cambiar la voz, la velocidad, el tono y guardar el resultado como audio, pero no ofrece controles para cambiar de párrafo.

VoiceGen y SpeechNote tienen la misma limitación: no permiten movernos entre párrafos. Ambos ofrecen voces de diferentes motores, y SpeechNote tiene más características.

El principal problema de estas opciones, además del espacio en disco que requieren ciertas voces, es que necesitamos pegar el texto en la aplicación. No podemos leer directamente en el navegador ni pegarles una URL para que detecte el texto.

Una solución suficiente

Suficiente, que no perfecta, es instalar el motor RHVoice y configurarlo como predeterminado en nuestro sistema, lo cual nos permitirá usar Firefox como nuestra aplicación de texto a voz. Vamos por partes.

RHVoice va primero. Es un motor TTS libre que, en el momento de escribir estas líneas, ya ha añadido soporte para voces en español, aunque solo con acento latinoamericano.

En una página de su web nos explica cómo instalarlo en GNU/Linux, unas instrucciones fácilmente comprensibles para quien controle un poco de inglés, por lo que no veo necesario transcribirlas aquí. Yo fui capaz de seguirlas sin mayor complicación, y no recuerdo haber hecho nada en particular para configurarla como voz por defecto del sistema.

La voz que nos interesa es Mateo, la única disponible en español.

Una vez hecho esto, podremos hacer uso de la nueva voz en cualquier aplicación del sistema. Por ejemplo, las aplicaciones de KDE Plasma suelen ofrecer una opción para leer texto seleccionado.

Pero, en mi experiencia, la mejor aplicación TTS en Linux es el mismo modo de lectura de Firefox, que funciona con cualquier artículo de la web que nos crucemos y dispone de un control para la velocidad de lectura y botones para cambiar de párrafo, justo lo que echo en falta en las otras opciones.

Si queremos escuchar un texto que hayamos escrito nosotros, es cuestión de exportarlo como HTML y pasarlo al navegador. Cualquier editor Markdown competente ofrece la opción.

En definitiva

Ojalá las aplicaciones dedicadas sigan evolucionando para poder pasarles una dirección web o arrastrar un archivo para que nos lo lean, además de añadir los susodichos botones para cambiar de párrafo. Respecto a las voces del sistema, lo ideal sería que las distribuciones GNU/Linux modernas ya trajeran RHVoice (u otro motor más moderno) instalado de serie.

Creo que a las distribuciones GNU/Linux aún les queda trabajo en cuanto a la accesibilidad. Tan solo KDE Plasma ofrece por defecto el seguimiento del cursor de texto con zoom, y a la vista está que aún queda camino con el tema de las voces.

Pero, mientras esperamos y seguimos las novedades, la combinación RHVoice con el modo de lectura de Firefox es, como decía, una solución suficiente.

No es perfecta porque aún no tiene voces para español de España (no es imprescindible pero se agradece por la costumbre), requiere algún paso intermedio y no podemos hacernos una «playlist» como con VoiceDream. Pero todo se andará.

El mundo del software libre va lento pero seguro, y estoy convencido de que la accesibilidad será otro campo donde los usuarios estaremos bien provistos, aunque haya que esperar un poco.

Categorías: Tecnología

Etiquetas: Software libre

Texto a voz y GNU/Linux en 2026

El problema de base

Algunas aplicaciones dedicadas

Una solución suficiente

En definitiva

Deja una respuesta Cancelar la respuesta