SAS维基百科 >>所属分类 >> SAS系统   

SAS Enterprise Miner

标签: Enterprise Miner 数据挖掘 SAS

顶[2] 发表评论(0) 编辑词条
SAS Enterprise Miner 
 企业级数据挖掘集成环境 

屡获大奖的数据挖掘产品SAS/EM是一个图形化界面,菜单驱动的,拖拉式操作,对用户非常友好且功能强大的数据挖掘集成环境。
SAS Enterprise Miner 5.1SAS Enterprise Miner 5.1

SAS/EM集成了:
 数据获取工具
 数据取样工具
 数据筛选工具
 数据变量转换工具
 数据挖掘数据库
 数据挖掘过程
 多种形式的回归工具
 为建立决策树的数据剖分工具
 决策树浏览工具
 人工神经元网络
 数据挖掘的评价工具
可利用SAS/EM中具有明确代表意义的图形化的模块将这些数据挖掘的工具单元组成一个处理流程图,并依此来组织您的数据挖掘的过程。这一过程在任何时候均可根据具体情况的需要进行修改、更新并将适合您需要的模式存储起来,以便此后重新调出来使用。SAS/EM图形化的界面,可视化的操作,可导引即使是数理统计经验不太多的使用者也能按照SEMMA的原则成功的进行数据挖掘。对于有经验的专家,SAS/EM也可让您一展身手精细的调整分析处理过程。
这一强大的数据挖掘工具组合阵容,保证了可以支持企业级的数据挖掘的各个方面工作。

目录

工具介绍编辑本段回目录

数据获取工具 
在SAS/EM的这个数据获取工具中,您可以通过对话框指定要使用的数据集的名称,并指定要在数据挖掘中使用的数据变量。变量分为两类:区间变量(Interval Variable)和分类变量(Class Variable)。区间变量是指那些要进行统计处理的变量。对于这样一些变量,在数据输入阶段您就可以指定它们是否要作最大值、最小值、平均值、标准差等的处理。还可给出该变量是否有值的缺漏,缺漏的百分比是多少等。利用这些指定可对输入数据在获取伊始就进行了一次检查,并把结果告诉您,您可初步审视其质量如何。
区间变量以外的变量称之为分类变量。在数据输入阶段将会提供给您每个分类变量共有多少种值可供分类之用。

数据取样工具 
对获取的数据,可再从中作取样操作。取样的方式是多种多样的,有:随机取样、等距取样、分层取样、从起始顺序取样和分类取样等方式。
随机取样
在采用随机取样方式时,数据集中的每一组观测值都有相同的被取样的概率。如按10%的比例对一个数据集进行随机取样,则每一组观测值都有10%的机会被取到。
等距取样
如按5%的比例对一个有100组观测值的数据集进行等距取样,则有:100 / 5 = 20,等距取样方式是取第20、40、60、80和第100等五组观测值。
分层取样
在这种取样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次您可设定不同的概率。这样的取样结果可能具有更好的代表性,进而使模型具有更好的拟合精度。
从起始顺序取样
这种取样方式是从输入数据集的起始处开始取样。取样的数量可以给定一个百分比,或者就直接给定选取观测值的组数。
分类取样
在前述几种取样方式中,取样的单位都是一组观测值。分类取样的单位是一类观测值。这里的分类是按观测值的某种属性进行区分。如按客户名称分类、按地址区域分类等。显然在同一类中可能会有多组观测值。分类取样的选取方式就是前面所述的几种方式,只是取样以类为单位。
设置多种形式的取样方式不仅给了您取样的灵活性,更重要的是从取样阶段您就能主动的考虑数据挖掘的目的性,强化了最后结论的效果。

数据筛选工具 
通过数据筛选工具您可从观测值样本中筛选掉您不希望包括进来的观测值。对于分类变量可给定某一类的类值说明此类观测值是要排除于取样范围之外的。对于区间变量可指定其值大于或小于某值时的这些组观测值是要排除于取样范围之外的。
通过数据筛选使样本数据更适合您要数据挖掘的目标。

数据变量转换工具 
利用此工具可将某一个数据进行某种转换操作,然后将转换后的值作为新的变量存放在样本数据中。转换的目的是为了使您的数据和将来要建立的模型拟合的更好。例如,原来的非线性模型线性化、加强变量的稳定性等。可进行取幂、对数、开方…等转换。当然,您亦可给定一个公式进行转换。
建立数据挖掘用的数据库:
在进行数据挖掘分析模型的操作之前,要建立一个数据挖掘的数据库(DMDB),其中就放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算,在这里建立一个专门的数据集将使您的工作更加有效率。在处理之前,可对您选进数据挖掘数据库的各个变量预先进行诸如最大、最小、平均、标准差…等处理。对一些要按其分类的变量的等级也先放入Meta Data之中,以利接下来的操作。总之在这个数据库中为数据挖掘建立一个良好的工作环境。
数据挖掘过程:
在数据挖掘的过程中可以使用SAS广泛的数学方法,以及实现最新数学方法的环境。这给您提供了几乎无所不能的数据挖掘天地。限于篇幅这里主要介绍几种常用的工具。

多种形式的回归工具 
在图形化工具中提供的回归操作中主要有线性回归和Logistic回归。在线性回归中有若干不同方法供您选择,诸如向前、向后的逐步回归等,还有多种回归运算结束的准则给您指定。
在Logistic回归过程中可拟合逻辑型的模型,其中响应变量可以是双值的或者是多值的。亦可使用逐步法选择模型,还可以进行回归诊断及计算预测值和残差值。
回归处理结束后,将会给您提供一份供讨论的详细的结果。内容包括:对回归参数的评价;对于模型拟合的统计结果;回归结果的标准输出:F-检验、均方差、自由度…等;回归运行的LOG;全部回归处理程序的代码;以及对此次回归记录文档资料。

为建立决策树的数据剖分工具 
对数据集进行聚类、剖分建立决策树,是近来数据处理,进行决策支持常用的方法。在SAS/EM中亦支持这一功能。在建立决策树的过程中可有多种数据聚类、剖分的方法供您选择。
图形化界面的交互式操作,可分成六个层次:
 对您在数据挖掘数据库中选定的数据集的操作
 对数据集中的变量的处理
 聚类、剖分时的基本选择项
 聚类、剖分时的进一步操作选择项
 模型的初步确定
 结果的评价
聚类、剖分可以多种不同的方法进行,不能说哪种方法更“准确”,这要看是否满足了您决策问题的需要。也许您应当试试不同方法所产生的结果。恰好SAS/EM不仅具有多种多样的处理方式的选择,而且具有相当高的“自动化”程度,使您能以极快的速度尝试多种方法,尽快得出您的最佳选择。

决策树浏览工具 
您最后作出来满意的决策树可能是个“枝繁叶茂”的架构。SAS/EM给您提供了可视化的浏览工具。这一点很重要,一个复杂的决策树若难以观察,则会影响您实施决策时的效率,甚至是有效性。决策树浏览工具包括有:
 决策树基本内容和统计值的汇总表
 决策树的导航浏览器
 决策树的图形显示
 决策树的评价图表

人工神经元网络 
人工神经元网络是近来使用越来越广的模型化方法,特别是对回归中难以处理的非线性关系问题,它往往能以更真实反映世界的能力使之得到更灵活的处理。在SAS/EM中有强有力的实现人工神经元网络模型的各种工具,使您免除了繁杂的数据处理,集中精力于模型本身的考虑。
在SAS/EM中的人工神经元网络应用功能可以处理线性模型;多层感知模型(MLP-Multilayer perceptron这是采用较多的缺省方式)和放射型功能(RBF-Radial basis function)。在交互式图形化界面上,在一个在线的关于SAS人工神经元网络问答的支持下,使您能高效的通过以下四个步骤建立人工神经元网络的模型:
 数据准备
 神经网络的定义
 人工神经元网络的训练
 生成预报模型

数据挖掘的评价工具 
在SAS/EM的评价工具中,向您提供了一个通用的数据挖掘评价的架构,可以比较不同的模型效果;预报各种不同类型分析工具的结果。
在进行了各种比较和预报的评价之后,将给出一系列标准的图表,供您进行定量评价。可能您会有自己独特的评价准则,在SAS/EM的评价工具中,您还可以进行客户化的工作,对那些标准的评价图表按您的具体要求进行更改。这样一来,评价工作可能就会更有意义。

SAS/EM让您以可操作的规范性实现了前面所讲的SEMMA数据挖掘方法学。它所涵盖的技术深度和广度您是可以想见的。这对于各种不同类型的计算机用户来说都是非常适合的。如果让您自己规划这样一个系统,可能您很难想象得这样完整,更不要说您是否有这么多的时间和精力象SAS的数据挖掘专家这样去开发这样的工具。

附件列表


→如果您认为本词条还有待完善,请 编辑词条

上一篇Excel图表之道 下一篇Singular Value Decomposition

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
2

收藏到:  

词条信息

IDMer
IDMer
书童
词条创建者 发短消息   
sxlion
sxlion
超级管理员
最近编辑者 发短消息   

相关词条