PDF 文件中的文字识别与排版是一个具有一定难度的任务。
对于人类来说,浏览文档页面的认知过程是视网膜捕捉字符,大脑将其组织成段落、表格和图表等进行理解和记忆。但计算机以二进制码感知信息,文档分为有标记文档(如 Microsoft Word 和 HTML 文档,包含特殊标记来组织文本)和无标记文档(如 PDF 文档,只存储字符、线条等位置指令,无结构信息,机器难以读取,复制到 Word 时表格结构常丢失)。
基于深度学习的 ChatDOC PDF 解析器(pdflux.com)在超过一千万份文档页面的语料库上进行训练。它包含一系列复杂步骤,如 OCR 进行文字定位和识别、物理文档对象检测、跨列和跨页调整、阅读顺序确定、表格结构识别、文档逻辑结构识别等。解析后以段落和表格作为基本块,合并相邻块至达到词元限制形成分块,始终以 JSON 或 HTML 格式提供解析结果。解析后的结果类似结构清晰的 Word 文件,例如能将文档解析为内容块,包括表格、段落、图表等元素,对于表格能输出单元格文本及合并情况,对于有分级标题的文档能输出分层结构。案例中它成功解决了 PyPDF 的一些缺点,如识别混合布局、合并同一段落文本行、以 Markdown 格式表示表格并保留内部结构等。