1.整个项目分为数据爬取存储:使用python编写爬虫程序从某二手房网站爬取相关数据并存储至本地mysql;数据处理,对不规则化数据进行编码,特殊数据进行数值转化,归一化等处理;特征工程,根据实际预测场景结合外部数据(如地图API提供的POI信息等)分析构建有效特征,保留有效特征;模型构建,尝试多个匹配当前任务数据类型和预测目的的基础模型进行测试;优化调参,通过spark高效完成模型自动化调参,自动选择最优参数;模型集成,通过投票、得分等方式对较优模型进行集成学习等几个方面。2.该项目最终可对二手房房价进行预测,最终预测结果偏差在500元/平方米上下。
评论