开源地址
https://modelscope.cn/models/iic/cv_resnet-transformer_table-structure-recognition_lore授权协议
Apache License 2.0

LORE无线表格结构识别模型介绍

表格结构识别，即给定一张图片，检测出图中单元格的物理坐标（四个顶点）以及逻辑坐标（行号列号）。在无线表格中，单元格的物理坐标使用表格内文字的外接框。

模型描述

本模型的主要原理为: 1）基于无线单元格中心点回归出到4个顶点的距离，解码出单元格bbox；2）结合视觉特征与单元格bbox信息，采用两个级联回归器兼顾全局与局部注意力，直接对单元格的逻辑坐标进行回归；3）模型训练时显式利用单元格间与单元格内逻辑约束对模型进行优化。详情可访问论文“LORE: Logical Locatio Regressio Network for Table Structure Recogitio”与开源项目。

pipelie

期望模型使用方式以及适用范围

本模型预期的输入为截取好的单个无线表格图片，如果图中含有非表格内容或多个表格会导致结果错误。模型的输出为图中无线表格单元格的物理坐标与逻辑坐标，具体地，物理坐标为单元格的四个角点的坐标，左上角为第一个点，按照顺时针的顺序依次输出各个点的坐标，分别为(x1,y1)(x2,y2)(x3,y3)(x4,y4)，逻辑坐标为从0开始的起始及结束行列号，具体格式为(startrow,edrow,startcolum,edcolum)。用户可以自行尝试各种输入图片。具体调用方式请参考代码示例。

如何使用

在安装完成ModelScope之后即可使用lieless-table-recogitio的能力。仅支持GPU。

预处理和后处理

测试时的主要预处理和后处理如下：

Resize Pad（预处理）: 输入图片长边resize到768，短边等比例缩放，并且补pad到长短边相等。同时有减均值除方差等归一化操作。
无后处理。

代码范例

from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
lieless_table_recogitio = pipelie(Tasks.lieless_table_recogitio, model='damo/cv_reset-trasformer_table-structure-recogitio_lore')
result = lieless_table_recogitio('https://modelscope.oss-c-beijig.aliyucs.com/test/images/lieless_table_recogitio.jpg')
prit(result)

模型局限性以及可能的偏差

模型主要用于无线表格，有线表格不支持

训练数据介绍

本模型训练数据部分来自SciTSR与PubTabNet，训练集共45000张。

模型训练流程

本模型利用imageet预训练参数进行初始化，然后在训练数据集上进行训练。

LORE无线表格结构识别模型介绍表格结构识别，即给定一张图片，检测出图中单元格的物理坐标（四个顶点）以及逻辑坐标（行号列号）。在无线表格中，单元格的物理坐标使用表格内文字的外接框。模型描述本模型

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

读光-表格结构识别-无线表格

技术信息

作品详情