iPhone上PDF文本到语音的问题与解决方案

在处理PDF文件时,拥有良好的文字转语音体验是困难的,当你将移动设备因素加入方程式时,这一难度将加倍。

PDF文件的技术根源使得这个过程变得困难。PDF格式的主要目的是确保在每个设备上准确地打印/显示印刷材料。由于这种格式是由Adobe发明的,Adobe是一家在印刷业有着深厚根基的公司,所以这并不令人惊讶。在许多方面,PDF可以看作是其PostScript打印技术的进化。

它做得很好,无论你使用什么设备,无论是打印还是在屏幕上显示,你总会得到相同的页面布局。

但是当涉及到文本缺陷时,PDF显示这并不是其主要目的。一些最值得注意的问题包括:

  • PDF可能只包含一堆字符和坐标,准确地打印它们。因此,即使是PDF中可能未定义的最简单的事物,例如单词,也可能需要复杂的人工智能来提取。
  • 由于文本是按坐标布置的,因此其在PDF文件中的顺序可能与其逻辑顺序无关。再次,这需要相当多的人工智能来纠正。
  • 所有文本内容都是相同的。因此,从纯数字的角度来看,页脚、页眉和脚注与常规文本没有区别。通常,连续页面之间没有逻辑联系,文本转语音应用程序必须判断下一页是否继续句子、段落、章节,还是完全新的部分。只有先进的人工智能才能检测到它们。
  • 由于iPhone屏幕相当小,PDF格式只包含固定页面的定义,通常太大而无法在屏幕上显示。替代方案是显示从文档中提取的文本,但这使得此操作的质量变得更加重要。

由于文字转语音依赖于文字流,这显然对支持此格式造成了很大的障碍。没有完美的解决方案,因为从定义上讲,人工智能可能会在其决策中出错,从理论上说,这可能会导致各种问题,其中内容未被正确检测。然而,好的AI总是会带来更多的好处而不是问题。事实上,如果你仔细阅读过文本,你会发现,除非应用程序启用了AI,否则使用文字转语音阅读PDF几乎是非常困难甚至是不可能的。

当涉及到这些AI功能时,其中一些在所有流行的iPhone文字转语音应用中都得到了良好的支持,但有些则没有或需要额外付费:

  • 基本文本提取(例如识别单词)- 在所有应用上你都可以期望相当不错的结果。部分原因来自于Apple已经提供了可以在设备上提供出色结果的工具。
  • 识别页脚和页眉 – 较不流行的应用可能会遇到这方面的问题,但所有流行的应用都应该能够处理这些情况。然而,其中一些可能将此作为年度订阅的特性(例如NaturalReader),在这种情况下,你每年至少需要支付50美元。
  • 最后,当涉及到跳过脚注时,目前能够做到这一点的唯一应用程序是Speech Central。

还有一件事,你可能从高级应用中获得,这可能对阅读一些PDF书籍(尽管这不一定仅与PDF格式有关)很重要,那就是智能跳过“垃圾”内容(例如科学作品中的引用)。关于这一点的情况与识别页脚和页眉相似 – 所有流行的应用都支持。但是在所有应用中,它都在付费墙之后,除了Speech Central。而且这个付费墙可能相当高(Speechify 140美元/年,NaturalReader 50美元/年,Voice Dream Reader 60美元/年)。

考虑到这一点,不足为奇的是Speech Central自称为“PDF之王” – 虽然没有一款应用能够100%完美地处理每一个PDF文件,但Speech Central提供了一些功能,使其在这方面处于非常顶端的位置。而更诱人的是,这些功能甚至在其免费版本中也可用。