识别PDF文件中的文字并排版（如何识别pdf中文字）

PDF 文件中的文字识别与排版是一个具有一定难度的任务。

对于人类来说，浏览文档页面的认知过程是视网膜捕捉字符，大脑将其组织成段落、表格和图表等进行理解和记忆。但计算机以二进制码感知信息，文档分为有标记文档（如 Microsoft Word 和 HTML 文档，包含特殊标记来组织文本）和无标记文档（如 PDF 文档，只存储字符、线条等位置指令，无结构信息，机器难以读取，复制到 Word 时表格结构常丢失）。

基于深度学习的 ChatDOC PDF 解析器（pdflux.com）在超过一千万份文档页面的语料库上进行训练。它包含一系列复杂步骤，如 OCR 进行文字定位和识别、物理文档对象检测、跨列和跨页调整、阅读顺序确定、表格结构识别、文档逻辑结构识别等。解析后以段落和表格作为基本块，合并相邻块至达到词元限制形成分块，始终以 JSON 或 HTML 格式提供解析结果。解析后的结果类似结构清晰的 Word 文件，例如能将文档解析为内容块，包括表格、段落、图表等元素，对于表格能输出单元格文本及合并情况，对于有分级标题的文档能输出分层结构。案例中它成功解决了 PyPDF 的一些缺点，如识别混合布局、合并同一段落文本行、以 Markdown 格式表示表格并保留内部结构等。

猜你喜欢