1.采用workflow架构,使用workflow搭建一个http服务器,用于接收客户端的请求 2.对客户端发送的url进行解析,/search为网页查询服务,/get为推荐字服务 3.推荐字服务模块分为离线部分和在线部分,离线部分将语料文件进行清洗、去重以及停用词过滤,生成中文和英文词典,根据中英文词典生成词典索引文件,在线部分对客户端发送的报文体进行解析,根据每一个字符得到候选词集合,将候选词集合根据最小编辑距离算法由小到大排序,再根据词频大小进行排序,返回客户端前十个候选词 4.网页查询服务模块分为离线部分和在线部分,离线部分将爬虫下来的网页使用tinyxml进行解析,使用simhash算法计算每个网页的指纹并进行去重,生成网页库和网页偏移库,将去重后的网页的内容进行解析、过滤停用词后得到字符对于每一篇网页的权重,生成倒排索引文件,在线部分服务器将客户端请求的报文体进行解析,将客户端查询内容作为文章,过滤停用词后,计算非停用词的权重作为基准向量和网页库的每一篇文章进行余弦相似度的计算,按照相似度大到小排序,返回给客户端前十个相似的网页连接 5.网页查询服务需要对磁盘文件进行频繁读