当前位置:首页->学生活动->正文

Kaggle银行顾客交易预测比赛结果公布,政管团队获银牌

2019-04-23 点击率:397

近日,政府管理学院2016级本科生赵海源、杨瞻、曲滋民同学组成的团队参加Kaggle数据挖掘大赛获得银牌。赵海源与杨瞻同学来自信息管理与信息系统专业,曲滋民同学来自管理科学专业。他们的指导者是信息管理系李韶辉老师。

Kaggle是世界著名的开放式数据科学竞赛平台,受到全球几十万名数据科学的关注。本次比赛的任务是银行客户交易预测,由桑坦德银行提供匿名面板数据,预测客户财务状况,并确定哪些产品和服务有助于客户实现财务目标。在长达一个多月的比赛当中,共有近9000支来自全球各地的数据科学团队参赛并进行了有效提交。最终政府管理学院本科生团队取得了令人瞩目的全球排名top2%(165/8800)的成绩。

赵海源同学对本次参赛中的感言是“参加比赛是对我们的专业课——《数据科学方法》学习的知识的一种检验和实践,通过将知识运用到实际当中,更能加深对所学知识的理解。希望大家在今后的学习和比赛当中取得好成绩!”。《数据科学方法》课是由李韶辉老师开设的信息管理与信息系统专业课,针对当今社会对大数据人才的迫切需求,融合数据挖掘理论方法和数据处理与分析的前沿技术,推动信息管理专业与社会需要密切衔接。

本次比赛成绩的取得也是政府管理学院大力推动跨学科人才培养的体现,学院秉承“提高学生灵活运用理论去解决实际问题的能力、扩大学科视野、提高创业就业的竞争力、服务于国家对人才的战略性需求”的宗旨,为本科生培养质量更上一个台阶提供了平台和制度保障。




大赛简介

Kaggle是世界上最大的数据科学平台,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码等服务,该平台已经吸引了80万名数据科学家的关注。

在这次比赛当中,比赛的举办方——桑坦德银行发布的任务是利用匿名的面板数据,预测哪些客户将来会进行特定交易。尽管这次比赛是一个常见的二分类问题,但是,由于桑坦德银行出于数据隐私保护的考虑,所发布的比赛数据集皆为经过匿名化处理后的脱敏数据,特征工程相对困难,成为了这场比赛的最大挑战。

大赛结果

本次比赛在测试集上使用AUC作为评分标准,根据所提交的预测结果线上评估,作为排行榜的Rank分数。AUC指标是一项相对而言很难提升的指标,通常在竞赛当中top队伍只能在该标准上拉开千分位甚至万分位的差距。最终,由我院参赛队伍的模型给出的预测结果在public排行榜上AUC得分为0.91382(179/8800)private排行榜上AUC得分为0.91198(165/8800)。比赛结果以private排行榜的得分为准,最终以top2%(165/8800)的成绩,获得了银牌。

政管团队解决方案

此次比赛由于匿名数据的原因,使得特征工程阶段探索得十分艰难,但是通过不断尝试以及EDAExploratory Data Analysis 探索性数据分析)后,小组最终找到了能够提升模型性能的新特征。

(1)   探索性数据分析与特征工程

在比赛的最初阶段,小组对拿到的数据进行了探索性数据分析。发现原始的200个特征之间的相关性极弱,因此,首先尝试了混合高斯朴素贝叶斯模型(Gaussian Mixture Na?ve Bayes)对数据进行建模,首次提交后就到达了0.899AUC分数。但在接下来的比赛当中,小组成员尝试添加了很多特征,没有取得显著提升。在比赛的最后几天,小组成员添加了类别变量的频数特征,使得模型AUC分数提升到了0.905。同时,又通过对频数特征进行标准化,让模型AUC分数提升到了0.910

(2)   模型选择与参数调优

通过比较,最终使用了微软的LightGBM作为基础模型。在调优阶段,小组成员放弃了效果好但需要极大的计算资源的网格搜索(Grid Search),而使用了更加灵活的贝叶斯优化(Bayesian Optimization)进行LightGBM的参数调优。在选定了最优参数之后,模型AUC分数上升到了0.912

(3)   模型正则化

为了进一步提高分数,小组成员们使用了两种模型正则化手段。首先是数据增强,由于变量的独立性,可以按类别对每一个变量随机打乱(shuffle)后生成额外的新数据集,从而扩充训练数据,这使得AUC分数上升到了0.913。然后基于之前得到的最优分类器的预测结果使用了伪标签,将经过伪标签标记后测试集数据一同参与训练,从而增强了模型的鲁棒性,这使得AUC分数上升到了0.91382