iPhone上PDF文本到语音的问题与解决方案

在处理PDF文件时，拥有良好的文字转语音体验是困难的，当你将移动设备因素加入方程式时，这一难度将加倍。

PDF文件的技术根源使得这个过程变得困难。PDF格式的主要目的是确保在每个设备上准确地打印/显示印刷材料。由于这种格式是由Adobe发明的，Adobe是一家在印刷业有着深厚根基的公司，所以这并不令人惊讶。在许多方面，PDF可以看作是其PostScript打印技术的进化。

它做得很好，无论你使用什么设备，无论是打印还是在屏幕上显示，你总会得到相同的页面布局。

但是当涉及到文本缺陷时，PDF显示这并不是其主要目的。一些最值得注意的问题包括：

PDF可能只包含一堆字符和坐标，准确地打印它们。因此，即使是PDF中可能未定义的最简单的事物，例如单词，也可能需要复杂的人工智能来提取。
由于文本是按坐标布置的，因此其在PDF文件中的顺序可能与其逻辑顺序无关。再次，这需要相当多的人工智能来纠正。
所有文本内容都是相同的。因此，从纯数字的角度来看，页脚、页眉和脚注与常规文本没有区别。通常，连续页面之间没有逻辑联系，文本转语音应用程序必须判断下一页是否继续句子、段落、章节，还是完全新的部分。只有先进的人工智能才能检测到它们。
由于iPhone屏幕相当小，PDF格式只包含固定页面的定义，通常太大而无法在屏幕上显示。替代方案是显示从文档中提取的文本，但这使得此操作的质量变得更加重要。

由于文字转语音依赖于文字流，这显然对支持此格式造成了很大的障碍。没有完美的解决方案，因为从定义上讲，人工智能可能会在其决策中出错，从理论上说，这可能会导致各种问题，其中内容未被正确检测。然而，好的AI总是会带来更多的好处而不是问题。事实上，如果你仔细阅读过文本，你会发现，除非应用程序启用了AI，否则使用文字转语音阅读PDF几乎是非常困难甚至是不可能的。

当涉及到这些AI功能时，其中一些在所有流行的iPhone文字转语音应用中都得到了良好的支持，但有些则没有或需要额外付费：

基本文本提取（例如识别单词）- 在所有应用上你都可以期望相当不错的结果。部分原因来自于Apple已经提供了可以在设备上提供出色结果的工具。
识别页脚和页眉 – 较不流行的应用可能会遇到这方面的问题，但所有流行的应用都应该能够处理这些情况。然而，其中一些可能将此作为年度订阅的特性（例如NaturalReader），在这种情况下，你每年至少需要支付50美元。
最后，当涉及到跳过脚注时，目前能够做到这一点的唯一应用程序是Speech Central。

还有一件事，你可能从高级应用中获得，这可能对阅读一些PDF书籍（尽管这不一定仅与PDF格式有关）很重要，那就是智能跳过“垃圾”内容（例如科学作品中的引用）。关于这一点的情况与识别页脚和页眉相似 – 所有流行的应用都支持。但是在所有应用中，它都在付费墙之后，除了Speech Central。而且这个付费墙可能相当高（Speechify 140美元/年，NaturalReader 50美元/年，Voice Dream Reader 60美元/年）。

考虑到这一点，不足为奇的是Speech Central自称为“PDF之王” – 虽然没有一款应用能够100%完美地处理每一个PDF文件，但Speech Central提供了一些功能，使其在这方面处于非常顶端的位置。而更诱人的是，这些功能甚至在其免费版本中也可用。

Published

2023年8月9日

iPhone上PDF文本到语音的问题与解决方案

Archives

Categories

你如何免费获得Speechify的高质量AI语音？

寻找一款无需订阅的优质文字转语音应用：可能吗？

Recent Posts

Recent Comments