|
金融行业-解决方案
客户细分--有的放矢还是广而告之
交叉销售或向上销售
客户流失模型
信用评级应用
客户流失模型
问题与数据
Z银行现在在其传统的贷款项目上遇到了客户的流失,他们是Z银行最为有价值的客户基础之一。因此在一项市场营销战略中,Z银行提供给她的新客户许多激励措施(诸如免费的电器产品和家具优惠购物券等)。但是,这是一项相对于竞争对手相当高的客户赢得的初始成本。然而,在这一贷款项目上的市场环境注定了该项目是低风险暴露的项目,由于家庭抵押贷款与交叉销售其他服务如家具贷款或家庭保险有着很强的战略上的指向。
除了保持其在战略上的市场领域,对于Z银行来讲,预测流失的可能性也是很重要的,这样他们就可以减少赢得的客户很快就流失的数目。注意Z银行已经拥有客户数据库,其中包括在客户申请其贷款时的交易和人口统计学数据信息。
假设Z银行拥有以下数据:
1.客户ID号;
2.储蓄账户余额;
3.现金账户余额;
4.投资账户余额;
5.每天平均交易次数;
6.信用卡支付模式;
7.是否拥有未完结抵押贷款;
8.是否有信用额度限制;
9.客户年龄;
10.客户性别;
11.客户婚姻状况;
12.客户家庭情况(孩子数);
13.客户年收入;
14.客户是否拥有一辆以上小汽车;
15.客户流失状态。
进一步假设,我们数据挖掘应用演示的目标是构建一个流失预测模型来预测现存客户在未来六个月里流失的概率可能性。这个预测模型将基于上面提到的13个变量来构建,预测目标变量是一个多分类变量:现存客户、自愿流失、非自愿流失。非自愿流失对于Z
银行来讲可能是很少感兴趣的,因为其反映的大多是因为客户在这贷款期间已经卖掉了他们的房子并且因而就不再需要这种贷款了。自愿流失这是指客户离开Z
银行的服务而转向了其竞争对手那边,这才是银行所首要关注的。
在展开这一应用之前,Z银行将其所有的现存客户分类成为以上所说的三种类型。同时,按照常规的做法,所有的人口统计学信息每六个月进行一次更新,而实际的交易信息数据是实时更新。为了能够使得预测模型可以提供尽早的指示,从而及时地采取相应的补救措施。因此,在建立模型时,应该确保目标变量和输入解释变量之间要滞后六个月。也就是说,输入变量比起客户分类的流失状况来讲要先于六个月进行收集,因而,这个预测模型就是提前六个月预测出流失状况。
模型与结果
对于预测性模型来讲,通常使用三种数据挖掘技术,也就是,
Logistic
回归、神经网络和决策树。我们在这里将使用SPSS公司的专业数据挖掘分析工具软件Clementine
来展示应用。图1给出了与例证相关的数据挖掘程序图表。注意其中的描述与可视化、关联与聚类、以及预测性模型都被整合在这一例证中。关于相关数据的快照显示在图2中。
图1
图2
描述与可视化结果
正如前面提及的,描述与可视化对于理解数据和在初步建模阶段探索模式、趋势以及关系都是相当有用的。在本例中应用了几种描述与可视化工具。例如,在Clementine
中应用Statistics节点和Distribution节点来展示描述统计量。其中一些结果展示在图3中(例如,在图中左边我们可以看出家庭贷款客户的平均年龄为57.4岁,同时看图的右边,其中720或50.7的客户为女性)。这些描述有助于我们理解数据。要可视化数据应用Plot节点和Histogram节点,我们可以生成关于客户收入与客户年龄的散点图以及显示每天平均交易次数的直方图(
相应参见图3中间部分)。更进一步,为了可视化目标变量之间的相关,客户流失状况在不同的图中采用了覆盖图的形式。例如,客户的离差,介于女性和男性中的非自愿流失与自愿流失客户以及对每一水平的交易途径都一体化的体现在图上。这些对于变量关系的预先的评估对于建模来讲都是有用的。尤其是,这些结果暗示了部分的自愿流失在女性客户中比男性客户更为普遍,并且交易积极性更低。
图3
最后,Web节点画出了客户性别、客户婚姻状况、信用卡支付模式与客户流失状况的关联(见图3中的下部)。
强关联显示在图上使用更粗的线条。如果联系不能达到某个入门水平就不会将关系显示在图上(例如,在非自愿流失者与被选择进入的输入变量之间)。网络图显示出现存的客户倾向于那些已经结婚的并且是男性而且他们使用其他账户来支付信用卡。提及注意的是,正如前面已经提到的,客户流失状况是滞后于输入变量六个月的。
关联与聚类结果
为了进一步理解家庭贷款客户,我们可以采取聚类分析技术。图4显示了通过运行TwoStep
节点聚类方法得到的聚类结果。正如所显示的一样,客户看起来落入七个很自然的群体中。这些得到的聚类描述与特征能够帮助设定和理解每一群体并且能够在群体中进行区分。
例如,比较类别1和类别4,类别1包含仅仅是相对年轻并且大多数都是已婚的(92.2%)女性客户,并且她们都拥有相当高的年收入。作为对比,类别4则包含了那些相对年老的(平均大上5岁左右)男性客户,他们中间59.8%已婚,而且他们通常拥有相对低的年收入(几乎差不多平均4000美元)。聚类结果对于市场营销定位以及细分研究都是非常有用的,但是却很少与预测性模型相关。
图4
在本文例证中,关联分析用于生成规则来显示输入变量与目标变量之间的关系。这些规则不仅仅对发现模式、趋势和关系很重要,而且对于预测性模型也是很重要的(例如,决定哪一个输入变量应该进入模型或者排除在模型之外)。可以使用在Clementine中的GRI节点来实施关联分析,其结果被展示在图3.5中。我们来解释这些结果,第二条关联规则指出有156(或者11%)的家庭贷款客户的在他们的投资账户上余额低于
4988
美元;并且其中, 81%的客户是非自愿流失客户。同样的,第一条规则则说明了198(13.9%)
的家庭贷款客户其在他们现金账户中的余额超过1017美元;并且其中,81%
的客户是自愿流失客户。其他的规则可以以同样的方式进行解释。这个关联规则显示了交易和人口统计学信息是如何与客户流失状况相关联的。同样需要注意的是,客户流失状况滞后于输入变量六个月。
图5
预测模型结果
在我们的关于Z银行数据挖掘应用的例子中,预测性模型是最重要的分析过程。尤其是Logistic回归、神经网络、决策树技术都能用于在家庭贷款中建立客户流失模型。在我们实施预测性建模之前,我们首先把样本数据拆分成构建/训练数据集
——大约占75%的数据——和验证/检验数据集
——大约占25%的数据。拆分后的数据样本结果显示在图6中。
图6
图7和图8显示了Logistic回归模型、神经网络模型与决策树模型的结果,它们分别是由Clementine软件中Logistic回归节点、神经网络节点以及决策树C5.0节点生成的。正如我们所看到的,
Logistic回归模型在统计上是显著的,并且其拥有卡方p值为1,表明是一个关于数据的很好的拟合(见图3.7)。
另外,紧接着的输入变量在预测模型中也是统计上显著的,给定置信水平0.05的情况下,储蓄账户余额、现金账户余额、年龄、投资账户余额以及性别。
图7
图8
图8显示的是神经网络模型,在该模型中输入层含有15个神经元,在隐含层含有五个神经元,在输出层则含有三个神经元。另外,五个最重要的输入变量为:现金账户、孩子数目、储蓄账户、投资账户和婚姻状况。最后,决策树模型显示了一个相对简单的含四个最终节点的决策树,其中只有三个重要的输入变量:投资账户、性别和年龄。图9给出了这一决策树模型的图形化展示。

图9
从由评价节点生成的图10即功效图表中我们可以看出,每个预测模型都是显著的(从左到右依次为Logistic回归、神经网络、决策树模型的功效图)。
功效图表中功效是将在每个分位点中成功数占记录数的百分比与在训练数据中成功数所占百分比做比较。它是用公式(分位点中成功数/分位点中记录数)/(总的成功数总的记录数)来计算的。
其基准(也就是,评价每个模型的极限)为1,如果记录的百分数是从样本中随机的选择出来的,那么基准将转化成现存客户中的成功记录。功效图表衡量的是有多少成功的也就是准确地预测了现存的客户,如果在分位数反映在以降序排列的从数据中的记录预测到的为现存客户的预测概率。正如我们可以从图10中可以看到的,对于每个模型的功效图表都是高于基准1的,在100的分位数上逼近收敛于1。因此,我们可以得出结论,每个预测模型是显著的,因为它们能够预测目标变量(至少现存客户针对非现存客户)在置信水平的准确度下。
图10
我们需要注意的是,从Logistic回归、神经网络、决策树得到的预测模型并不是同一的。因此,不仅仅在构建/训练数据集上而且还应该在(更为重要)
评价/检验数据集上对这三个模型的性能进行比较就是非常重要的。对于这三个预测模型,评价它们的比较性能优势的最好的方法可能就是着眼于模型在预测目标变量(客户流失状况)的准确率。为了本文展示以及简化的目的,假设全面的准确率包含了比较不同预测模型性能的评价标准。这些结果(也就是分类表)显示在图11中。
图11
正如图11左边显示的,决策树的预测结果是最为准确的,其具有80.7%的全面准确率,紧跟着是Logistic回归模型的80.42%的准确率以及神经网络78.31%的准确率。
因此,基于评价标准,决策树模型是最佳的预测模型,因而在我们本例中
Z银行的家庭贷款的预测流失状况就应该使用决策树模型。同时我们应该注意的是,决策树模型也是非常容易解释的,我们可以从图9
中展示的简单规则就可以反映出来。尤其是,这些结果指明了在 Z银行进行家庭贷款的那些自愿流失客户很可能都是女性、年龄在39岁以上、并且她们在投资账户上拥有超过4976
美元。还需提请注意的是,目标变量滞后于输入变量有六个月。
从到目前为止我们所展示的结果来看,在给定客户的交易以及人口统计学信息的情况下,决策树流失预测模型能够更为准确的识别流失客户和非流失客户来增加价值。在这里是这么一种情形,决策树模型能够用于帮助Z银行识别出哪一个客户倾向于自愿流失。进而Z银行就可以对他们提供激励性的打包服务或者采用其他的预防性行动。同样的,流失模型也能帮助识别出那些低流失风险的家庭贷款申请者来加以赢得。使用数据挖掘的术语来讲,决策树模型能够通过其对现存客户以及新贷款申请者的评分来得到发布。
最后,我们应该指出的是,对于本例中的展示来讲,模型的全面分类准确率是在一种相对简单的方法下计算得到的。在实际中,考虑错误分类以及他们的成本以及在样本和总体数据上流失与非流失的相对比率才是适合的,比如,我们可以去看看Koh(1992)。
|