【Kaggle入门级竞赛top5%排名经验分享】— 分析篇
副标题[/!--empirenews.page--]
技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战
Kaggle作为公认的数据挖掘竞赛平台,有很多公开的优秀项目,而其中作为初学者入门的一个好的项目就是:泰坦尼克号生还者预测。 可能这个项目好多朋友也听说过,可能很多朋友也做过。但是项目完成后,是否有很好的反思总结呢?很多朋友只是潦草的敷衍过去了,知道大概的套路了就没再去看。其实,一个再简单的项目,如果把它做好也能有巨大的收获。 博主开始做的时候,也是经过反复琢磨和尝试,并从最初的20%到最好的2%,期间学习了很多,不得不说这个项目让我很好的了解了数据挖掘。 本篇,博主将会从零开始介绍这个项目,教你如何一步一步的把这个项目做好。由于大部分星球的朋友们已经完成了分析部分的实战练习,因此将这部分内容拿出来进行简单的分享。 首先对这个项目进行一下介绍。 ![]() 万变不离其宗,拿到数据首先粗率的观察。 将训练集和测试集进行合并,以便后续数据内容变换的统一处理。 ![]() ![]() 合并后一共1309条数据,并可以看到:age,cabin,embarked,Fare四个特征有缺失值,其中cabin缺失比较严重。 ![]() 异常值初始观察(主要观察一下最大与最小值):
结论:通过以上观察和分析,我们看到了一些可能的异常值,但是也不敢肯定。这需要我们进一步通过可视化来清楚的显示并结合对业务的理解来确定。 ![]() 结论: 从上面各特征值的类型数量来看:
因此,先对上面5种容易的分类进的特征行可视化。 ![]() 对于上面的定类和定序数据类型,我们分别可以观察到各特征值的分布情况,以及与目标变量之间的联系。
就以上5个特征来看,Sex和Pclass两个特征是其中非常有影响的两个。 以上只是单独特征对是否生还的简单分析,但实际上对目标变量的影响是由多个因素造成的,而不只是单独的影响。为此,我们需要知道在某个特定条件下的特征的影响才更加能帮助我们分析:
以下是用FaceGrid进行的具体分析: ![]() 观察结果:
![]() 1. Age分布和特征分析 ![]() 结论: 很明显看到,以上Survived与Not Survived特征分布的主要区别在0 ~15左右。小于15岁以下的乘客(也就是孩子)获救率非常高,而大于15岁的乘客分布无明显区别。 ![]() 结论: (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |