1

Coggle 30 Days of ML

 2 years ago
source link: https://junyaohu.github.io/2022/06/26/30days-of-ml-202207/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

任务1:报名比赛

任务2:比赛数据分析

  • 步骤1:统计字段的缺失值,计算缺失比例;
    • 通过缺失值统计,训练集和测试集的缺失值分布是否一致?
    • 通过缺失值统计,有没有缺失比例很高的列?
  • 步骤2:分析字段的类型;
    • 有多少数值类型、类别类型?
    • 你是判断字段类型的?
    • 在博客中通过文字写出你的判断;
  • 步骤3:计算字段相关性;
    • 通过.corr()计算字段之间的相关性;
    • 有哪些字段与标签的相关性最高?
    • 尝试使用其他可视化方法将字段 与 标签的分布差异进行可视化;

任务3:逻辑回归尝试

  • 步骤1:导入sklearn中的逻辑回归;
  • 步骤2:使用训练集和逻辑回归进行训练,并在测试集上进行预测;
  • 步骤3:将步骤2预测的结果文件提交到比赛,截图分数;
  • 步骤4:将训练集20%划分为验证集,在训练部分进行训练,在测试部分进行预测,调节逻辑回归的超参数;
  • 步骤5:如果精度有提高,则重复步骤2和步骤3;如果没有提高,可以尝试树模型,重复步骤2、3;

任务4:特征工程(使用pandas完成)

  • 步骤1:统计每个性别对应的【体重指数】、【舒张压】平均值
  • 步骤2:计算每个患者与每个性别平均值的差异;
  • 步骤3:在上述基础上将训练集20%划分为验证集,使用逻辑回归完成训练,精度是否有提高?
  • 步骤4:思考字段含义,尝试新的特征,将你的尝试写入博客;

任务5:特征筛选

  • 步骤1:使用树模型完成模型的训练,通过特征重要性筛选出Top5的特征;
  • 步骤2:使用筛选出的特征和逻辑回归进行训练,在验证集精度是否有提高?
  • 步骤3:如果有提高,为什么?如果没有提高,为什么?
  • 步骤4:将你的尝试写入博客;

任务6:高阶树模型

  • 步骤1:安装LightGBM,并学习基础的使用方法;
  • 步骤2:将训练集20%划分为验证集,使用LightGBM完成训练,精度是否有提高?
  • 步骤3:将步骤2预测的结果文件提交到比赛,截图分数;
  • 步骤4:尝试调节搜索LightGBM的参数;
  • 步骤5:将步骤4调参之后的模型从新训练,将最新预测的结果文件提交到比赛,截图分数;

任务7:多折训练与集成

  • 步骤1:使用KFold完成数据划分;
  • 步骤2:使用StratifiedKFold完成数据划分;
  • 步骤3:使用StratifiedKFold配合LightGBM完成模型的训练和预测
  • 步骤4:在步骤3训练得到了多少个模型,对测试集多次预测,将最新预测的结果文件提交到比赛,截图分数;
  • 步骤5:使用交叉验证训练5个机器学习模型(svm、lr等),使用stacking完成集成,将最新预测的结果文件提交到比赛,截图分数;

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK