Pattern是采用Python开发的一个Web挖掘模块。拥有以下工具:
数据挖掘:网络服务(Google、Twitter、Wikipedia)、网络爬虫、HTMLDOM解析;
自然语言处理:词性标注工具(Part-Of-SpeechTagger)、n-gram搜索(n-gramsearch)、情感分析(sentimentanalysis)、WordNet;
机器学习:向量空间模型、聚类、分类(KNN、SVM、Perceptron);
网络分析:图形中心性和可视化。
其文档完善,目前拥有50+个案例和350+个单元测试。
评论