【Kaggle入门级竞赛top5%排名经验分享】— 分析篇
发布时间:2018-08-18 08:03:06 所属栏目:教程 来源:佚名
导读:技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战 Kaggle作为公认的数据挖掘竞赛平台,有很多公开的优秀项目,而其中作为初学者入门的一个好的项目就是:泰坦尼克号生还者预测。 可能这个项目好多朋友也听说过,可能很多朋友也做过
观察到Pclass1相对于2和3的Fare比较高,因为地位高,财富多。但是Pclass1中有几个大于500的异常值存在,看一下这些异常数据。 ![]() 这些异常值中,有两个名字一样的Cardeza,又看到Parch都为1,SibSp都为0,Fare,Cabin,Embarked,Ticket都一样,可推测二人是夫妻。另外两个人的Embarked,Ticket,Fare也都一样,这说明这个大于500的Fare可能不是异常值。后面我们会对这些进行特征工程来特殊对待。 ![]() ![]() 这是上述7个特征的相互关联图的汇总,对角线为特征自身的kde分布。对于不方便可视化的Name,Cabin,Ticket将在特征工程中进一步进行处理并挖掘这些数据中到底有什么信息是非常有价值的。 【编辑推荐】
点赞 0 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |