通过抓取250个证券网站的最新公告,拿到对应PDF、WORD、TXT,通过文档分析、目录树生成、PDF转换,表格读取、表格纠错、数据入库等环节,将所有获取下来的公告文件进行字段的解析,并将有价值的数据进行筛选,实现最终的存储。
评论