当前位置:首页 >> 计算机软件及应用 >>

基于IBM SPSS Modeler 14.2的数据挖掘_图文

基于 IBM SPSS Modeler14.2 的数据挖掘
对某公司销售记录进行分析。该公司在 2012.7.13-2010.8.17 进行了发放优惠劵活动, 产生了 1291 条记录,9 个字段,每个字段的意义如表 1 所示。数据可以到下面地址下载: http://61.129.34.202/BIweb/eBay_business_case_v3.0.xlsx。
表 1 记录中字段的意义 字段名 Cmpgn_name Control_yn Redeemer_YN USER_ID Gender sge CK_DATE BUY_QTY GMB 字段类型 标志 标志 标志 连续 名义 连续 连续 连续 连续 字段意义 活动名,均为 Coupon campaign name 购买者类型: 控制:'c', 测试:'t' 是否为重复购买者: 是:'y', 否:'n' 购买者 ID 购买者性别: 女:'F',男:'M', 未知:'U' 购买者年龄, age=-99 意味着信息丢失 购买日期 购买商品数量 购买金额(美元)

下面利用 IBM SPSS Modeler 14.2 进行决策树、聚类分析、关联分析和回归分析。 (1)决策树分析 启动 IBM SPSS Modeler 14.2,导入文件。在工作平台上,添加一个 Excel 源节点。双 击该节点,文件类型设为“Excel 2007,2010(*.xlsx) ”,导入文件为源 Excel 文件的路径, 按名称 DATA 选择工作表,其他默认设置,如图 15.87 所示。

图 15.87 导入文件

查看源数据。添加一个“表”节点,运行该表节点。如图 15.88 所示,共有 9 个字段, 1291 条记录。

图 15.88 源数据

下面首先利用 C5.0 算法进行决策树分析,探讨客户的年龄、性别、单次购买量、单次 购买金额与购买者是否重复购物的关系。 添加“类型”节点。在数据源节点后添加一个类型节点,把 gender、age、BUY_QTY 和 GMB 的角色设为数据流的输入, redeemer_yn 的角色设为目标, 其他的角色设为无, 如图 15.89 所示。

图 15.89 字段类型设置

添加 C5.0 节点,双击 C5.0 节点,采用默认设置。如图 15.90 所示。

图 15.90 C5.0 节点设置

点击图 15.90 中的“运行”按钮,生成 C5.0 模型,右键浏览,如图 15.91 所示。可以 看到生成的决策树, 从中可以转化为一些规则, 例如当 GMB<=19 时, 购买者不是重复购买者。 但是从业务角度来讲,更加关注哪些客户是重新购买者。可以看出,当每次购买金额 GMB 超过 19,且年龄在 61 且性别为男或未知时,顾客为重复购买者。

图 15.91 C5.0 决策树

预测变量重要性的情况如图 15.92 所示,可以看到年龄、GMB、gender、BUY_QTY 对建 模的影响是逐渐降低的。

图 15.92 预测变量重要性

在生成模型之后添加一个分析节点,运行可以得到图 15.93 所示的结果。可以看出,决 策树的正确率为 95.35%。

图 15.93 分析决策树模型的质量

(2)聚类分析 下面再利用两步聚类算法对源数据进行分析,选择购买者的年龄、性别、单次购买量、 购买金额、是否为重复购买者等字段作为聚类的属性。 在数据源节点后添加一个类型节点,把 redeemer_yn、gender、age、BUY_QTY 和 GMB 的角色设置为输入,其他字段的角色设为无,如图 15.94 所示。

图 15.94 类型节点设置

在类型节点后添加一个“两步”节点,双击该节点,如图 15.95 所示,采用默认设置。

图 15.95 两步节点设置

点击图 15.9 中的“运行”按钮,生成两步模型,右键浏览该模型。两步模型的概要和 聚类质量如图 15.96 所示,聚类质量比较好(值为 0.7) 。

图 15.96 模型概要和聚类质量

两步聚类算法得到的 4 个聚类所占总记录的百分比为 44.0%、43.0%、9.3%和 3.7%,最 大聚类与最小聚类的比值为 11.83,如图 15.97 所示。

图 15.97 两步模型聚类大小

两步模型各个字段的重要性如图 15.98 所示, 其中每个字段重要性如下: Redeemer (1.0) 、 gender(0.96) 、BUY_QTY(0.54) 、GMB(0.09)和 age(0.02) 。

图 15.98 预测变量重要性

图 15.99 显示了聚类结果的详细信息, 不仅可以看到每个聚类的大小, 也能够看到每个 字段对聚类的作用。

图 15.99 聚类结果

(3)关联分析 下面利用 Apriori 算法对购买者的年龄、性别以及是否为重复购买者进行关联分析。 在数据源节点之后,添加一个“类型”节点,把 redeemer_yn、gender 和 age 的角色设 置为两者,其他字段设为无,如图 15.100 所示。

图 15.100 字段类型角色设置

在源数据中,存在着性别不确定的记录,对 gender 取值不确定的记录进行清除。在字 段节点后添加一个“选择”节点,双击该节点,选择模式为“丢弃” ,条件设置为 gender= ‘U’ ,如图 15.101 所示。

图 15.101 选择节点设置

添加一个 Apriori 节点, 双击该节点, 设置最低支持度为 5.0 最小规则置信度为 10.0, 最大前项数为 5,其他采用默认设置,如图 15.102。

图 15.102 Apriori 节点设置

点击图 15.102 中的“运行”按钮,生成 Apriori 模型,右键浏览,如图 15.103 所示。 可以看到,当 redeemer_yn 为‘y‘时,gender=M 的支持度为 9.373,置信度为 63.636。当 redeemer_yn 为‘y’时,gender=F 的支持度为 9.373,置信度为 36.364。当 gender=M 时, redeemer_yn 为‘y’的支持度为 51.278,置信度为 11.631。

图 15.103 生成关联规则

(4)回归分析 回归分析使用的数据为某企业销售数据,共 1168 个记录,包含 BUY_QTY_Sum、 BUY_QTY_Mean、GMB_Sum、GMB_Mean、Record_Count、redeemer_yn、gender、age 等 字段,分别表示客户购买商品总数量、客户单次购买商品平均数量、客户购买商品总金额、 客户单次购买商品平均金额、 客户购买次数、 客户是否为重复购买者、 客户性别和客户年龄。 下面利用 IBM SPSS Modeler14.2 分别进行线性回归和 Logistic 回归分析。 回归分析主要

挖掘客户相关数据与 GMB_Sum(客户购买商品总金额)之间的关系。客户相关数据包括 age (客户的年龄)、 gender (性别)、 BUY_QTY_Sum (客户购买商品总数量)、 BUY_QTY_Mean (客户单次购买商品平均数量) 、GMB_Mean(客户单次购买商品平均金额) ,如图 15.104 所示。

图 15.104 回归分析字段角色设置

预处理后的数据可到 http://61.129.34.202/BIweb/syjj.htm 下载,回归分析的数据流如图 15.105 所示。

图 15.105 回归分析的数据流

( 1 )预测变量重要性。回归分析模型预测变量的重要性如图 15.106 所示,其中 GMB_Mean 重要性的值为 0.86,BUY_QTY_Sum 重要性值为 0.14,其余变量对 GMB_Sum 影响不大。

图 15.106 预测变量重要性

(2)回归方程如图 15.107 所示。

图 15.107 回归方程

(3)模型概要。从图 15.108 中可以看出,R 方检验值为 0.845,调整后的 R 方检验值 为 0.845,标准误差为 101.426689。回归分析建立的模型质量可以接受。

图 15.108 模型概要

(4)系数分析。图 15.109 为模型的系数分析,根据显著性可以知道,除 age 变量没通 过显著性检验外,其他自变量均符合要求,且 age 变量对模型重要性较低。因此,可以得到 回归分析得到的模型质量是较好的。

图 15.109 模型系数分析

(5) 回归模型分析。 利用分析节点对回归模型分析的结果如图 15.110 所示。 可以看出, 线性相关度为 0.919。本次分析的数据量较大,误差值域为[-678.294,2817.485])也是可以 接受的。

图 15.110 回归模型分析

Logistic 回归分析主要分析客户是否重复购买 redeemer_yn 与客户相关数据的关系。客 户的相关数据包括 gender、age、BUY_QTY_Sum 和 GMB_Sum,如图 15.111 所示。

图 15.111

Logistic 回归分析变量角色设置

Logistics 回归分析的数据流与回归分析相似,如图 15.112 所示。

图 15.112

Logistics 回归分析数据流程

Logistic 回归分析预测变量重要性如图 15.113 所示。变量的重要性由 BUY_QTY_Sum、 GMB_Sum、gender 和 age 逐渐递减,重要性的值为分别为 0.56、0.17、0.16 和 0.11。

图 15.113 预测变量重要性

得到的 Logistic 回归方程如图 15.114 所示。

图 15.114

Logistic 回归方程

图 15.115 为 Logistic 回归模型的记录处理汇总信息。 可以看到, 记录中的重复购买者数 量为 11,占总数的 9%,非重复购买者数量为 1157,男客户数量为 585,占总数 50.1%等信 息。

图 15.115 记录处理汇总

从图 15.116 所示的模型拟合信息可见,模型的显著性值为 0.000<0.005,通过显著性 检验。

图 15.116 模型拟合信息

准判定系数是因变量变异的比例,Cox and Snell、Nagelkerke 和 Mcfadden 等参数分 别为 0.078、0.775、0.765,如图 15.117 所示。可见除 Cox and Snell 外,其他两个参数 值是较大的,即 Logistic 回归分析的模型质量较好。

图 15.117 准判定系数

参数分析主要分析各个参数的质量, 如图 15.118。 其中 B 是指回归系数 β 的假设检验, Std.Error 是各个字段的标准差, Wald 是参数的 Wald 检验值, 主要是检验方程显著性水平, Sig 为显著性水平。可以看到,常量(Intercept)、BUY_QTY_Sum 和 GMB_Sum 的显著性值均 小于 0.05,age 的显著性值为 0.170,[gender=F]显著性值为 0.358。尽管以上两个参数的 显著性大于 0.05,但是根据预测变量重要性可以,这两个参数在模型建模中较为不重要。 因此, Logistic 回归模型模拟质量是可以接受的。

图 15.118 参数分析

利用分析节点对模型分析得到的结果如图 15.119。可以看出,Logistic 回归分析模型与 能够准确预测 1163 条记录,预测错误的记录有 5 条,准确率达 99.57%。

图 15.119 模型分析

最后,再利用 RFM 模型分析用户购买的情况,为目标营销提供决策支持。 RFM 模型是一种根据顾客在某段时间内购买情况, 确定顾客价值的方法。 其中 R(recency) 表示顾客最近一次购买的时间(距某个时间点),F(frequency)表示顾客在最近一段时间内 购物的频率, M (monetary) 表示顾客在最近一段时间内购物的金额。下面采用 IBM SPSS Modeler 14.2 中 的 RFM 模 型 , 对 顾 客 数 据 ( 下 载 地 址 http://61.129.34.202/BIweb/eBay_business_case_v3.0.xlsx)进行分析,找出目标营销 顾客。在此基础上,采用 k-means 方法进行聚类,分析每类顾客的特点。 首先读入数据,选择用户标签(user_id) 、购买日期(CK_DATE)和购买额(GMB)作为 分析字段。 转换日期格式, 添加一个填充节点, 把 CK_DATE 字段转为 data 类型, 如图 15.120 所示。

图 15.120

转换日期类型

添加一个 RFM 汇总节点,如图 15.121 所示进行设置。

图 15.121 RFM 汇总节点

在 RFM 汇总节点后添加一个表节点,如图 15.122 所示。

图 15.122 查看 RFM 汇总信息

选择 RFM 分析节点。本次分析的数据时间间隔较短,这里把频数、顾客的消费金额的权 重设置大些:近因、频数和货币的权重分别设置为 10.0,40.0 和 20.0,如图 15.123 所示。

图 15.123 RFM 分析设置

在 RFM 节点后添加一个表节点,结果如图 15.124 所示,得到每一个顾客的近因、频数 和货币得分,计算加权求和得到 RFM 得分。根据近因、频数和货币得分的情况,可以看出当 客户在分析时间范围内重复购买时, 顾客的频数得分较高; 近因得分和货币得分与顾客最近 一次购买时间和购买金额相关。 根据 RFM 得分情况, 可以把得分比较高的一些顾客作为目标 营销的对象。

图 15.124 RFM 分析结果

进一步地,把顾客的基本信息(年龄、性别等)以及由 RFM 分析得到的近因得分、频 数得分、货币得分等作为 k-means 聚类算法的输入,如图 15.125 所示。

图 15.125

设置 k-means 聚类角色

k-means 聚类的结果如图 15.126 所示。可以看出,对于聚类 1,货币得分为 5、性别为 男 (M) 、 频数得分为 1 和近因得分为 5, 分别占该聚类总数的 61.3%、 100%、 77.9%和 35.7%, 年龄均值为 44.21。其他类别也可以进行类似的分析。可以对不同类别的顾客进行不同的促

销活动。

图 15.126

k-means 聚类分析

上述数据挖掘的数据流如图 15.127 所示。

图 15.127 数据流


相关文章:
基于IBM SPSS Modeler 14.2的数据挖掘.pdf
基于IBM SPSS Modeler 14.2的数据挖掘_计算机软件及应用_IT/计算机_专业资料。基于IBM SPSS Modeler 14.2的数据挖掘 RFM 算法基于IBM SPSS Modeler14.2 的数据...
SPSS Modeler数据挖掘 第一讲_图文.ppt
? 教材与参考资料 (一)教科书 《基于SPSS Modeler 的数据挖掘》第2版 薛薇著 中国人民大学出版社2016年1月 ()参考书目 陈国青著.《商务智能原来与方法》(第...
IBM SPSS modeler数据与文本挖掘.txt
IBM SPSS modeler数据与文本挖掘 - IBM SPSS modeler数据与文本挖掘实战, 图书简介: 本书主要包括两部分内容:重点介绍了各种数据挖掘方法的基本原理及应用,包括回...
基于SPSS Modeler的数据挖掘过程解析.doc
基于SPSS Modeler的数据挖掘过程解析 - 龙源期刊网 http://www.qikan.com.cn 基于 SPSS Modeler 的数据挖掘过程解析 作者:张治斌 来源:《数字技...
面向大数据处理的 IBM SPSS Modeler_图文.pdf
IBM SPSS Modeler(以下简称 Modeler)是一款数据挖掘分析的行业软件,其采用数据流...基于以下的 Hadoop 环境: Apache Hadoop 0.20.2 Apache Hadoop 1.0.3 IBM ...
SPSS Modeler数据挖掘 第五讲_图文.ppt
SPSS Modeler数据挖掘 第五讲_计算机软件及应用_IT/计算机_专业资料。SPSS ...y (t ))2 ? N ? 1 i ?1 ? 异质性下降指标: Nl Nr ?R(t ) ? R...
SPSS Modeler数据挖掘 第三讲_图文.ppt
SPSS Modeler数据挖掘 第三讲_计算机软件及应用_IT/计算机_专业资料。Modeler的数据精简 主要内容 ? ? ? 数据精简包括以下方面: ? 第一,从压缩样本入手(前章) ...
SPSS Modeler数据挖掘 第十讲_图文.ppt
SPSS Modeler数据挖掘 第十讲_计算机软件及应用_IT/计算机_专业资料。SPSS Modeler数据挖掘 Modeler的关联分析 主要内容 ? ? ? ? ? 关联分析概述 简单关联规则...
SPSS Modeler数据挖掘 第九讲_图文.ppt
SPSS Modeler数据挖掘 第九讲_计算机软件及应用_IT/计算机_专业资料。SPSS ...{ y1 , y2 ,..., yk } i 朴素贝叶斯分类方法 ? 基本思路 P( y | x...
SPSS Modeler数据挖掘 第七讲_图文.ppt
SPSS Modeler数据挖掘 第七讲_计算机软件及应用_IT/计算机_专业资料。SPSS Modeler数据挖掘 聚类分析 主要内容 ? ? ? 聚类分析方法概述 两步聚类方法 基于聚类分析...
SPSS数据挖掘_Modeler在通信行业的应用_图文.ppt
SPSS数据挖掘_Modeler在通信行业的应用_计算机软件及应用_IT/计算机_专业资料。...2.09 8.58 1.9 9.79 0.07 4.73 269.11 14.76 0.39 0.46 1.06 0....
IBM数据挖掘解决方案_图文.ppt
IBM数据挖掘解决方案 - SPSS Modeler 简单易用的数据挖掘工具 数据挖掘工具易用性的商业意义 ? SPSS Modeler通过对复杂参数设置,数据整理,结 果呈现等进行封装...
IBM SPSS Modeler 教程-(1).doc
IBM SPSS Modeler 教程-(1) - IBM SPSS Modeler 说明 数据挖掘和建模 数据挖掘是一个深入您的业务数据,以发现隐藏的模式和关系的过程。数据挖掘解决了一个常见....
SPSS Modeler 数据挖掘软件简介.doc
SPSS Modeler 数据挖掘软件简介_IT/计算机_专业资料...(如 IBM DB2,Oracle,Informix, Sybase, SQL Server...此分类系统可以基于一组决策规则来预测 或分类未来的...
SPSS数据分析与挖掘实战案例精粹第五章_图文.ppt
SPSS数据分析与挖掘实战案例精粹第五章_计算机软件及应用_IT/计算机_专业资料。IBM SPSS Modeler操作入门,界面和架构,基本表达式 第五章 modeler操作入门 第五章 ...
SPSS Modeler 的数据理解和数据处理_图文.pdf
SPSS Modeler 的数据理解和数据处理_计算机软件及应用_IT/计算机_专业资料。SPSS Modeler 的数据理解和数据处理 SPSS Modeler 的数据理解和数据处理本文详细介绍了如何...
SPSS Modeler_14.1_初中级_02_V1.0_图文.pdf
2 第一章 SPSS Modeler建模技术 第一章 SPSS Modeler建模技术数据挖掘涉及的...基于IBM SPSS Modeler 1... 19页 3下载券 spss教程16.0 ppt 02 147页 ...
数据挖掘案例分析小组作业_图文.ppt
数据挖掘案例分析结课报告 IBM SPSS Modeler 14.1 企业财务信
SPSS Modeler 14.1 安装教程_图文.doc
步骤1. 1 下载完 IBM SPSS Modeler14.1 后,双击“IBM SPSS Modeler 14.1”开始安装。 2. 等到安装准备完成。 2 3. 点击“下一步”。 3 4. 4 选择“...
IBM SPSS MODELER 教程-(1).txt
IBM SPSS MODELER 教程-(1) - 得出数据的意义,并且耗时也越长。金矿无法开采,通常是由于缺乏人力、时间或专业技术。 数据挖掘使用清晰的业务流程和强大的分析技术...