Problemas y Soluciones del Texto a Voz de PDF en iPhone

Tener una buena experiencia de texto a voz es difícil cuando se trata de archivos PDF, y eso se duplica cuando agregas el factor de forma móvil a la ecuación.

Las raíces técnicas del archivo PDF son tales que hacen que este proceso sea difícil. El propósito principal del formato PDF era garantizar una impresión/visualización precisa del material impreso en las pantallas de cada dispositivo. Eso no debería sorprender, ya que este formato fue inventado por Adobe, una compañía con profundas raíces en la impresión. En muchos sentidos, el PDF viene como la evolución de su tecnología de impresión PostScript.

Hace este trabajo muy bien, y siempre obtendrás el mismo diseño de la página sin importar el dispositivo que uses y si lo imprimes o lo muestras en la pantalla.

Pero cuando se trata de la falla del texto, el PDF muestra que este no era su propósito principal. Algunos de los problemas más notables son:

  • El PDF puede contener solo un desorden de caracteres con coordenadas sobre dónde imprimirlos exactamente. Como tal, incluso las cosas más simples como las palabras pueden no estar definidas en los PDF y pueden requerir una inteligencia artificial compleja para extraerlas.
  • Como el texto está dispuesto por coordenadas, su orden dentro del archivo PDF puede no estar conectado con su orden lógico. Nuevamente, esto requiere bastante inteligencia artificial para corregirlo.
  • Todo el contenido textual es igual. Como tal, desde una perspectiva puramente digital, los pies de página, encabezados y notas al pie no son diferentes al texto regular. En general, no hay una conexión lógica entre las páginas consecuentes y depende de la aplicación de texto a voz averiguar si la página siguiente continúa la oración, el párrafo, el capítulo o es una sección completamente nueva. Nuevamente, solo la inteligencia artificial avanzada puede detectarlos.
  • Como la pantalla del iPhone es bastante pequeña, un problema adicional es que el formato PDF contiene solo la definición de páginas fijas, que generalmente son demasiado grandes para mostrarse en la pantalla. La alternativa es mostrar el texto extraído del documento, pero eso hace que la calidad de esta operación sea aún más importante.

Como el texto a voz depende del flujo de texto, esto obviamente pone una gran barrera para soportar este formato. No hay una solución perfecta, ya que por definición, la inteligencia artificial puede cometer errores en sus decisiones, y como tal, al menos en teoría, esto puede llevar a varios problemas donde el contenido no se detecta correctamente. Sin embargo, la buena IA siempre traerá más beneficios que problemas. En realidad, si has seguido cuidadosamente el texto, es muy difícil o incluso imposible utilizar el texto a voz para leer PDF a menos que la aplicación esté habilitada para IA.

En lo que respecta a esas funciones de IA, algunas de ellas están bien respaldadas entre todas las aplicaciones populares de texto a voz para iPhone, pero algunas no lo están o requieren pagos excesivos:

  • Extracción básica de texto (como reconocer palabras): puedes esperar resultados bastante buenos en todas las aplicaciones. En parte, esto se debe al hecho de que Apple ya ofrece herramientas que pueden proporcionar excelentes resultados integrados en el dispositivo.
  • Reconocimiento de pies de página y encabezados – las aplicaciones menos populares pueden tener problemas con esto, pero todas las aplicaciones populares deberían poder manejar estos casos. Sin embargo, algunos de ellos pueden poner esto como una función de suscripción anual (como NaturalReader), en cuyo caso debes pagar al menos 50$/año solo por esto.
  • Finalmente, cuando se trata de omitir notas al pie, la única aplicación que actualmente puede hacer esto es Speech Central.

También hay algo que puedes obtener de las aplicaciones premium que podría ser importante para la lectura de algunos libros PDF (aunque esto no está necesariamente relacionado solo con el formato PDF), es saltar inteligentemente el contenido “basura” (como citas en trabajos científicos). La situación con respecto a esto es similar al reconocimiento de pies de página y encabezados: todas las aplicaciones populares lo admiten. Sin embargo, en todas las aplicaciones está detrás de un muro de pago, excepto en Speech Central. Y ese muro de pago puede ser significativo (Speechify 140$/año, NaturalReader 50$/año, Voice Dream Reader 30$).

Teniendo esto en cuenta, no debería sorprender que Speech Central se anuncie como “El Rey del PDF”: si bien no hay una aplicación que maneje perfectamente cada archivo PDF, Speech Central ofrece algunas funciones que la colocan en la cima en este aspecto. Y lo que es aún más tentador es que esas características están disponibles incluso en su edición gratuita.