Python文档可读性分析：pdfplumber, pandas, re, jieba, json,

内容包括：1. 对上市公司IPO审核问询回复函、招股说明书PDF格式原始文件（11000个）进行目标文件锁定。二进制去重，并基于目标公司名单，及关键字，筛选出目标文件2490。2. 使用python模块plumber抽提PDF中的文本，表格和图片信息，进行数据清洗与结构化。3. 读取文本目录，将文章分割为问题块及回答块，分别统计字符数，评估问询函有效性。4. 采用自然语言处理框架中的Jieba分词技术对文本内容进行切割，基于HMM模型和 Viterbia算法进行预测分词，将分词结果与《灵格斯汉英会计词典会计术语词典》进行比对，统计会计词汇出现次数，计算会计术语密度。5. 以(现代汉语篇章中的连接成分》逆接连接成分为基础构律词典，使用re模块将每个逆接词作为正则表达式的pattern去匹配全文内容，统计逆接词出现的总次数，计算逆连词密度。6. 将PDF中提取的表格与图片信息，折算为行数，计算可视化信息占比。7. 使用pandas综合多个指标，分箱评级，得出文章可读性分数。

Python文档可读性分析：pdfplumber, pandas, re, jieba, json,

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐