Skip to content

miss-fang/my_titanic

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

my_titanic

该项目为Kaggle经典Titanic生存数据分析,这里观察了各个特征下生存与死亡的对比,使用随机森林回归模型填补缺失年龄,其他缺失特征一般以最常见填补。 也根据特征分布构建了一些新的特征,筛选出需要的特征后,使用热图展示了相关矩阵,并得出与生存率有关的一些结论。 然后,使用XGBClassifier和sklearn中若干分类器通过GridSearchCV(网格搜索)寻找各自最佳参数,模型在验证集上的最高精度为86%多,提交的预测结果得分为0.79425。得分好像有作弊机制,即通过测试文件中的名字与其他文件中比较,直接确定存活与否,但是我们不能为了得分搞这种小动作。 最后,考察了一下模型的过拟合情况,以及展示了单变量调优(网格搜索是多变量调优)过程。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published