首页/全部课程/Python/课程详情
课程介绍

课程包含19章内容

  • 缺失值处理
  • 数值离散化
  • 特征提取
  • IRIS数据集
  • 类别字段编码
  • 乳腺癌数据集
  • 线性回归
  • 多项式特征
  • 数值标准化
  • 数据指标计算
  • 决策树
  • 随机森林
  • 文本数据处理
  • 数据聚类
  • 数据降维PCA
  • 关联规则
  • 异常值检测
  • 手写数字识别
  • 邮件文本分类
  • 房价预估


覆盖sklearn知识点

  • 为机器学习模型准备数据
  • 处理缺失值,SimpleImputer类
  • 分类、回归、聚类
  • 离散化
  • 特征提取
  • PolynomialFeatures类
  • LabelEncoder类
  • OneHotEncoder类
  • StandardScaler类
  • 虚拟编码
  • 将数据拆分为训练集和测试集
  • LogisticRegression类
  • 混淆矩阵
  • 分类报告
  • 线性回归类
  • MAE - 平均绝对误差
  • MSE - 均方误差
  • sigmoid()函数
  • 准确率
  • 决策树分类器类
  • GridSearchCV类
  • RandomForestClassifier类
  • CountVectorizer类
  • TfidfVectorizer类
  • KMeans类
  • AgglomerativeClustering类
  • 层次聚类类
  • DBSCAN类
  • 降维,PCA 分析
  • 关联规则
  • LocalOutlierFactor类
  • 隔离森林类
  • KNeighborsClassifier类
  • 多项式NB 类
  • GradientBoostingRegressor类


常见问题
Q1: 本课程的价格是一次性的吗?
A: 课程标价就是整个课程的价格,购买后观看本课程内所有章节视频不另外收费。
Q2: 购买本课程提供所用软件吗?
A: 客栈学院只提供课程教学,不提供软件销售和下载,请同学们自行安装好正版软件进行学习。
Q3: 本课程有观看有效期吗?
A: 课程不限有效期,购买成功即可随时观看。
Q4: 本课程视频可以下载吗?
A: 由于视频涉及版权问题,课程视频不支持下载。
Q5: 本课程买了之后有售后服务吗?
A: 购买完课程之后可以加售后答疑微信,课程学习过程中会有资料发送、答疑解惑等售后服务内容。
目录20章101节
第1章 缺失值处理
1-1: 检测数据每列的缺失值
免费
1-2: 填充数据列的缺失值
免费
1-3: 获取填充缺失值的统计值
免费
1-4: 使用常量填充缺失值
1-5: 使用最频繁的值填充缺失值
1-6: 过滤掉缺失值的行并统计
1-7: 对多数据列做缺失值填充
第2章 数值离散化
2-1: 等宽区间
2-2: 指定区间
2-3: 区间标签
2-4: 虚拟编码
第3章 特征提取
3-1: 元素的个数
3-2: 是否包含元素
3-3: 从字符串提取标签
3-4: 每行缺失值个数
3-5: 字符串清理转数字
第4章 IRIS数据
4-1: 加载认识数据
4-2: 查看列名和分类名
4-3: 数据和目标的shape
4-4: 拆分训练测试集
4-5: 逻辑回归训练
4-6: 在测试集实现预估
4-7: 理解混淆矩阵
4-8: 理解分类报告
第5章 分类列编码
5-1: 预估目标列编码
5-2: OneHot编码
第6章 乳腺癌数据集
6-1: 加载并查看数据描述
6-2: 查看data和target
6-3: 合并data和target
6-4: 生成Pandas的df
6-5: 拆分训练集和测试集
6-6: 训练测试集数据分布
6-7: 训练测试集的均匀拆分
第7章 线性回归
7-1: Numpy正规方程线性回归
7-2: sklearn实现线性回归
7-3: 读取csv实现线性回归
第8章 多项式特征
8-1: 单个变量的多项式特征
8-2: 多个变量的多项式特征
第9章 数值标准化
9-1: 读取CSV实现数值标准化
9-2: 训练测试集数值标准化
第10章 数据指标
10-1: 平均绝对误差MAE
10-2: 均方误差MSE
10-3: Sigmoid函数
10-4: entropy熵函数
10-5: 准确率
10-6: 混淆矩阵
第11章 决策树
11-1: 训练决策树分类模型
11-2: 模型参数之最大树深度
11-3: 模型参数值叶节点最小样本数
11-4: 网格搜索获得最优参数
第12章 随机森林
12-1: 训练随机森林分类模型
12-2: 网格搜索获取最优参数
第13章 文本数据
13-1: 计数向量化
13-2: 计数向量化加入停用词
13-3: 计数向量化加入ngram
13-4: TFIDF实现文本向量化
13-5: TFIDF向量化增加停用词
第14章 数据聚类
14-1: 用Numpy自己实现聚类
14-2: KMeans实现聚类
14-3: 使用KMeans模型实现预估
14-4: 评价指标之WCSS
14-5: 肘部法则选择聚类数目
14-6: 层次聚类Agglomerative
14-7: 层次聚类的两个重要属性
14-8: DBSCAN聚类算法
14-9: DBSCAN聚类算法的异常点
第15章 数据降维PCA
15-1: 数据标准化预处理
15-2: 自己实现PCA降维算法
15-3: 组合降维结果和标签数据
15-4: 使用pca算法
15-5: 计算观察方差分布
15-6: 指定方差百分比计算分量数
第16章 关联规则挖掘
16-1: 购物篮数据拆分
16-2: 计算购买商品的去重列表
16-3: 实现one-hot编码
16-4: 计算商品的支持度
16-5: 计算多个商品的支持度
16-6: 计算关联规则以及置信度
第17章 异常值检测
17-1: 局部异常因子算法LOF
17-2: LOF统计离群点分布
17-3: 孤立森林
17-4: 孤立森林可视化异常点
第18章 手写数字识别
18-1: 加载并查看数据
18-2: 训练和测试集的拆分
18-3: 使用K近邻算法做分类
18-4: 逻辑回归算法做分类
第19章 邮件文本分类
19-1: 加载邮件数据
19-2: 输入数据转换成list
19-3: 计数器向量化文本
19-4: 计数器数据分类模型
19-5: TFIDF向量化文本
19-6: TFIDF数据分类模型
第20章 房价预估
20-1: 加载波斯顿房价数据
20-2: 计算房价和特征的相关性
20-3: 分离特征和预估目标数据
20-4: 拆分训练集和测试集
20-5: 训练线性回归模型
20-6: 线性回归模型实现预估
20-7: 比较预估结果和真实值
20-8: 使用GBDT训练模型
20-9: 模型的保存和加载
裴帅帅
前百度资深大数据工程师
人工智能专业硕士,前百度资深大数据工程师,现一线互联网推荐系统架构师,8年Python实践经验,具备Python在Web开发、网络爬虫、数据分析、大数据处理、机器学习、深度学习、推荐系统等多个技术方向的研究与是实战经验,全网30万学员粉丝,讲课风格干脆利落不拖泥带水,被学员称赞没有一句废话的老师。