大模型理解复杂表格，字节&中科大出手了（复杂图表是什么）

原标题：大模型理解复杂表格

，字节&中科大出手了

关键字：表格,模型,任务,视觉,结构

文章来源：量子位

内容字数：0字

允中发自凹非寺量子位 | 公众号 QbitAI只要一个大模型，就能解决打工人遇到的表格难题！

字节联手中科大推出了一款统一表格理解大模型，可以以用户友好的方式解决多种表格理解任务。

同时提出的还有一套开源测试基准，可以更好地评估模型在表格理解任务上的表现。

该模型名为TabPedia，利用多模态大模型，将不同处理表格任务的专有模型进行了整合。

在这之前，不同的任务都有独立的模型和解决方案，单是找到适合的模型就是已经很让人头疼。

而TabPedia通过概念协同（Concept Synergy）机制来实现多个任务、多种源信息的整合协作，打工人再也不用为找模型而烦恼了。

那么，这款新模型都能实现怎样的效果呢？

无需裁剪识别多表格结构首先来看，在测试数据集上，TabPedia可以在不借助后处理算法的条件下，精准识别表格位置并直接生成无重叠的检测框。

在判断出表格位置的基础之上，对于表格结构识别任务，TabPedia可以继续生成一系列连续的表格结构元素以及相应的检测框。

不仅判断准确，还有效地解决了标记语言（HTML或者Markdown）处理空间坐标的不足和非法语法潜在造成解析错误的弊端。

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破