Probleme & Lösungen von PDF-Text-zu-Sprache auf dem iPhone

Ein gutes Text-zu-Sprache-Erlebnis bei PDF-Dateien zu haben, ist schwierig, und das verdoppelt sich, wenn man den mobilen Formfaktor in die Gleichung einbezieht.

Die technischen Wurzeln der PDF-Datei sind so, dass sie diesen Prozess erschweren. Der Hauptzweck des PDF-Formats bestand darin, das genaue Drucken/Anzeigen von gedrucktem Material auf Bildschirmen auf jedem Gerät sicherzustellen. Das sollte nicht überraschen, da dieses Format von Adobe erfunden wurde, einem Unternehmen mit tiefen Wurzeln im Druckwesen. In vielerlei Hinsicht kommt das PDF als Evolution seiner PostScript-Drucktechnologie.

Es erfüllt diese Aufgabe sehr gut, und Sie erhalten immer das gleiche Layout der Seite, unabhängig davon, welches Gerät Sie verwenden und ob Sie es drucken oder auf dem Bildschirm anzeigen.

Wenn es jedoch um den Textfluss geht, zeigt das PDF, dass dies nicht sein Hauptzweck war. Einige der bemerkenswertesten Probleme sind:

  • Das PDF kann nur eine Unordnung von Zeichen enthalten, mit Koordinaten, wo genau sie gedruckt werden sollen. So können selbst einfachste Dinge wie Wörter in PDFs nicht definiert sein und benötigen eine komplexe künstliche Intelligenz, um sie zu extrahieren.
  • Da der Text nach Koordinaten angeordnet ist, kann seine Reihenfolge in der PDF-Datei nicht mit seiner logischen Reihenfolge verbunden sein. Auch hier wird ziemlich viel künstliche Intelligenz benötigt, um es korrekt zu machen.
  • Alle Textinhalte sind gleich. Daher sind aus rein digitaler Sicht Fußzeilen, Kopfzeilen und Fußnoten nicht anders als der reguläre Text. Im Allgemeinen gibt es keine logische Verbindung zwischen aufeinanderfolgenden Seiten, und es liegt an der Text-zu-Sprache-App zu entscheiden, ob die nächste Seite den Satz, Absatz, das Kapitel fortsetzt oder ein völlig neuer Abschnitt ist. Nur die fortgeschrittene künstliche Intelligenz kann sie erkennen.
  • Da der iPhone-Bildschirm ziemlich klein ist, ist ein zusätzliches Problem, dass das PDF-Format nur Definitionen von festen Seiten enthält, die im Allgemeinen zu groß sind, um auf dem Bildschirm angezeigt zu werden. Eine Alternative besteht darin, den aus dem Dokument extrahierten Text anzuzeigen, was jedoch die Qualität dieser Operation noch wichtiger macht.

Da die Text-zu-Sprache von dem Textfluss abhängt, stellt dies offensichtlich eine große Barriere für die Unterstützung dieses Formats dar. Es gibt keine perfekte Lösung, denn per Definition kann die künstliche Intelligenz Fehler in ihren Entscheidungen machen, und dies kann zumindest theoretisch zu verschiedenen Problemen führen, bei denen Inhalte nicht richtig erkannt werden. Eine gute KI wird jedoch immer mehr Vorteile als Probleme bringen. Tatsächlich ist es, wenn Sie den Text sorgfältig verfolgt haben, sehr schwierig oder sogar unmöglich, Text-zu-Sprache zur Lektüre von PDFs zu verwenden, es sei denn, die App ist KI-fähig.

Wenn es um diese KI-Funktionen geht, werden einige von ihnen bei allen beliebten iPhone Text-zu-Sprache-Apps gut unterstützt, andere jedoch nicht oder erfordern übermäßige Zahlungen:

  • Grundlegende Textextraktion (wie das Erkennen von Wörtern) – Sie können von allen Apps recht gute Ergebnisse erwarten. Dies kommt zum Teil daher, dass Apple bereits Tools liefert, die auf dem Gerät hervorragende Ergebnisse liefern können.
  • Erkennen von Fuß- und Kopfzeilen – Weniger beliebte Apps könnten diesbezüglich Probleme haben, aber alle beliebten Apps sollten in der Lage sein, diese Fälle zu bewältigen. Einige von ihnen könnten dies jedoch als Feature eines Jahresabonnements ansehen (wie NaturalReader), in diesem Fall müssen Sie mindestens 50$/Jahr nur dafür bezahlen.
  • Schließlich, wenn es um das Überspringen von Fußnoten geht, ist die einzige App, die derzeit dazu in der Lage ist, Speech Central.

Ein weiterer Punkt, den Sie von Premium-Apps erhalten könnten, der für das Lesen einiger PDF-Bücher wichtig sein könnte (obwohl dies nicht unbedingt nur mit dem PDF-Format zu tun hat), besteht darin, “unwichtigen” Inhalt (wie Zitate in wissenschaftlichen Arbeiten) intelligent zu überspringen. Die Situation diesbezüglich ähnelt dem Erkennen von Fuß- und Kopfzeilen – alle beliebten Apps unterstützen das. Bei allen Apps steht es jedoch hinter einer Bezahlschranke, mit Ausnahme von Speech Central. Und diese Bezahlschranke kann erheblich sein (Speechify 140$/Jahr, NaturalReader 50$/Jahr, Voice Dream Reader 30$).

Mit diesem Hintergedanken sollte es nicht überraschend sein, dass sich Speech Central als “Der König des PDF” bewirbt – obwohl es keine App gibt, die jede einzelne PDF-Datei zu 100% perfekt bearbeitet, bietet Speech Central einige Funktionen, die es an die absolute Spitze in dieser Hinsicht setzen. Und was noch verlockender ist, ist, dass diese Funktionen sogar in seiner kostenlosen Version verfügbar sind.