点击空白处退出提示
作品详情
2 、Django后端使用pydocx库将word文档转成html文件。
3 、使用PyQuery分别提取两个转化后的html文件的文本内容。
4 、通过CSS的行内样式和内部样式优先级分析字体大小和粗细。
5 、通过CSS样式和正则将文本内容解析成章节、段落、内容和表格树形结构。
6 、将表格的粒度细化到单元格,不匹配文本通过标点符号细化到每个句子和文字。
7 、对两个树形结构文本内容进行校对,校对流程如下图(只画了第一层树状结构)。
8 、思路:树形结构对比整个树干、树枝、树叶和花朵匹配一个剪一个,剩余不匹配部分
根据相似度匹配叶子节点,通过标点符号和分词生成第二层树状结构,同样方式分别
对比第二层树状结构的树干、树枝、树叶。
9 、对html文件做初始化所有文本内容统一颜色,表格设置边框。
10、将首次匹配成功的章节、段落、内容、表格渲染成白底黑字。
11、已找到的表格未匹配成功的单元格背景渲染成蓝色。
12、对第一层树状结构匹配成功的块级元素,在两个html文件中分别设置相同描点。
13、对第二层树状结构匹配成功的树干、树枝、树叶渲染成白底黑字并添加锚点。
14、将第二层匹配和不匹配的叶子结点之间设置锚点实现相互跳转。
15、将相似度不高并且找不到的文本字体加粗背景设置成橙色。
16、在年报html页面添加JS代码渲染出错误列表隐藏栏,设置错误元素跳转描点。
17、通过Django返回渲染后的年报html,鼠标点击任意块级元素返回新窗口财务页面,
两个html页面之间可通过锚点相互跳转。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论