为什么LLM不能很好读取pdf文档-(ljm是什么的简称)

LLM 不能很好读取 PDF 文档的原因较为复杂,主要包括以下几点:

正确处理 PDF 文档并从中获取信息比想象中复杂。 Embedding 并不是直接输入 LLM,只是用于召回相关文本,且纯向量化召回在多项 BEIR benchmark 上甚至不如 BM25。 向量数据库无法让模型突破自身的 context limit。 目前 LLM 产品套路还不够清晰,低代码 LLM 平台解决的问题较少,反而限制发挥。

0
分享到:
没有账号? 忘记密码?