采用DataCo Global 公司使用的供应链数据集,对数据集客户细分分析,目的是使公司更好地了解其客户,并针对他们提高客户响应能力和公司收入。由于分析数据有很多选择,很难决定使用哪种方法和机器学习模型,因为模型的性能随数据中可用的参数变化而变化。所以同时比较9种流行的机器学习分类器,以找出哪种机器学习模式的效能更佳。由于所使用的数据集与供应链相关,因此对重要参数进行检测,并使用该数据集训练机器学习模型,以检测欺诈交易、订单延迟交货。本项目使用的机器学习分类器有Logistic回归、线性判别分析、高斯朴素贝叶斯、支持向量机、k-近邻、随机森林分类、extra树分类、极端梯度增强、,决策树分类用于欺诈检测,并根据准确率、召回分数和F1分数预测延迟交货。
具体实现步骤是先对数据集进行一个探索性分析,查看数据集的变量,去更加深入探究各个变量间的联系,并对数据集的部分信息进行可视化展示,构建分类模型