摘 要 本文通过数据挖掘理论,应用分类知识发现中的决策树算法,利用移动公司的实际运营数据建立训练集、测试集,经过商业理解、数据理解、数据准备、建模、评估、配置等数据挖掘流程进行移动客户流失预测模型分析。
关键词 CRM;数据挖掘;决策树
2 建立移动客户流失模型概要
2.1 建立移动客户流失模型的总体思路
以移动公司提供的历史数据为基础,采用分类的方法[5],建立预测模型,分析流失客户和在网客户的特征,然后利用流失预测模型,分析和判断现有客户是否会流失。 分类方法[6]是数据挖掘中一项非常重要的任务,目的是构造一个分类函数或分类模型,通过分类函数把数据库中的元组映射到给定类别中的某一个,即发现一些指定的商品或事件是否属于某一特定数据子集的规则。在分类发现中,训练集的样本个数或数据对象的类别标志是已知的,分类发现的任务就是根据从训练样本中发现的规则对未知其类别的数据进行分类。2.2 建立移动客户流失模型的技术方法
在项目实施过程中,以数据挖掘的思想和技术为理论基础,以移动公司提供的基本业务记录为数据基础,采用决策树[7]算法进行建模。 决策树算法是分类发现算法中最常见的一种方法,这种方法在对数据进行处理的过程中,将数据按树状结构分成若干分支形成决策树,每个分支包含数据元组的类别归属共性(相当于分类发现中的类及其特性),从每个分支中提取有用信息,形成规则。在决策树的生成过程中,其输入为训练样本数据集,决策树是其最终的输出结果,决策树的每一个决策节点对应着元组进行分类的一个决策属性,分支对应着元组按该属性进一步划分的取值特征,叶子节点代表着各个类或类的分布。3 建立移动客户流失模型的基本流程
建立移动客户流失模型的基本流程为: 确定流失指标→数据抽取→数据净化→建立流失预测模型→流失结果的分析评估3.1 确定流失指标
在确定流失指标时,本项目主要分析了三方面的数据: (1)客户基本资料:包括客户年龄、性别、客户状态、在网时长、积分。 (2)客户业务数据:包括主动呼叫次数、被动呼叫次数、免费服务次数、主动联系人数、被动联系人数、网内通话次数、联通通话次数、固话通话次数、语音费用、普通短信费用、梦网短信费用、其它费用、总费用。 (3)客户欠费信息:包括预存款、冲销欠款、滞纳金、欠费次数。 为了确定在模型中将要使用哪些客户流失信息及客户数据时间范围,我们取数据窗口为三个月、时间间隔为一个月、预报窗口为一个月,因此客户业务数据和客户欠费信息都取连续三个月的数据进行分析。3.2 数据抽取
3.2.1建立表结构
根据确定好的流失指标,开始定义字段类型,建立表结构。本项目建立的表结构DW_LS_DATA如表1所示。
列 | 数据类型 | 允许 NULL | 注释 |
ID_NO | NUMBER | 不允许 | 客户号 |
AGE | NUMBERPS(2,0) | 允许 | 年龄 |
BEFORE_STAT | CHAR(1) | 允许 | 前一种状态 |
NOW_STAT | CHAR(1) | 允许 | 当前状态 |
MARK | NUMBERPS(10,0) | 允许 | 积分 |
OUTNUM1 | NUMBERPS(10,0) | 允许 | 前一个月的呼叫次数 |
OUTNUM2 | NUMBERPS(10,0) | 允许 | 前两个月的呼叫次数 |
OUTNUM3 | NUMBERPS(10,0) | 允许 | 前三个月的呼叫次数 |
…………… |
3.2.2 确定字段来源
定义好表结构之后,为了得到所需要的数据,需要从各个表中抽取所需字段。 客户基本信息来源于:DW_BASICINFO_ALL和DCUSTMARKMSG 客户业务数据来源于:DW_BEHAVIOR 客户欠费信息来源于:WPAYTOTAL3.2.3 建立临时表
在抽取字段的过程中,会生成一些中间表,为了减少资源的占用,将这些中间表建成临时表。在流失模型的数据抽取过程中用到了三个临时表,TINFO,TFEECON,TOWECON。TINFO的作用是将离网的客户和所有在网的客户合并在一张表内;TFEECON的作用是将业务数据合并在一张表内;TOWECON的作用是将欠费信息合并在一张表内。3.2.4 存储过程
准备工作做完之后,就可以利用PL/SQL建立存储过程,抽取所需字段,将抽取的记录插入到最终的表DW_LS_DATA中,数据抽取的工作即告完成。3.3 数据的净化
数据净化[8]是清除数据源中不正确、空值、不完整等不能达到数据挖掘质量要求的数据。数据净化可以提高数据的质量,便于数据挖掘算法的实施,从而得到更正确的挖掘结果。3.4 建立移动客户流失模型
建立移动客户流失模型的方法很多,如决策树、神经网络及回归等,本项目采用决策树算法建立移动客户流失模型。建立流失预测模型的整个过程如图1所示。图1 建立流失预测模型
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr /> 得到的模型用决策树的形式显示如图2所示。
3.5 移动客户流失模型评估
将测试集和所生成的流失模型相连,通过下面这个节点,可以检验模型的正确程度,检验的结果如图3所示。图3 测试集结果检验 通过结果我们可以看到:实际数据为A,预测结果也为A的有345条记录,实际为A而被预测为a的有2条记录,实际为a被预测为A的有两条记录,实际数据为a,预测结果也为a的有118条记录,流失的命中率为118/120×100%=98.3%。 为了进一步进行测试,我们将数据平衡之前的全部数据,除去用于训练的数据之后,进行检验,检验的结果如图4所示。 图4 全部数据结果检验 通过结果我们可以看到:实际数据为a的有5条被预测成了A,而实际为A的有173条被预测成了a,流失的命中率为115/120×100%=95.8%。
4 结论
本项目通过决策树建立的移动通信客户流失模型,在实际运营环境中是有效可行的,达到了预警流失客户的作用,为移动运营商防止客户流失,维系良好客户关系起到了辅助作用。参考文献
[1] 曲东荣.CRM在中国银行领域中的应用.中国金融电脑[J],2000(10),P74-77[2] 林宇等. 数据仓库原理与实践. 北京:人民邮电出版社,2003,1[3] 余长国. 客户关系管理.经济师,2000,10,P210-211[4] 武森, 高学东, M. Bastian. 数据仓库与数据挖掘[M]. 北京:冶金工业出版社, 2003[5] 段云峰等.数据仓库及其在电信领域中的应用[M].北京:电子工业出版社,2003,10[6] 吕廷杰等.客户关系管理与主题分析[M]北京:人民邮电出版社,2002,11[7] 何荣勤. CRM原理.设计.实践 北京:电子工业出版社,2003,1.[8] (美)Efrem G.Mallach 决策支持与数据仓库系统. 北京:电子工业出版社,2001,4
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr />
相关文章:
网络攻击过程的形式化描述方法研究04-26
基于HTML标签的信息隐藏模型04-26
在当前网络环境下地方文献的组织管理探索04-26
基于对手思维建模的分布式入侵检测模型04-26
动态特效实时建模方法的研究04-26
数字农业时空信息管理平台04-26
基于Verilog HDL的模型优化04-26
单点登录系统集成应用子系统的方法探讨04-26
基于Windows XP的PVM的实现04-26