举一个数据挖掘的例子

2024-05-19 06:43

1. 举一个数据挖掘的例子

很简单,比如你可以对你现在有的客户的交易数据,把交易变量标准化以后,用K-MEAN做个聚类分析,就可以有结果,然后你可以知道谁是你的最好的客户群,他有什么特征,谁是你的最差的客户群,他们又有什么特征,......

举一个数据挖掘的例子

2. 现代数据挖掘技术按其特点分为几类，最好举下例子，谢谢～

你是江大信息专业的？

3. 请通俗的讲一下什么是数据挖掘

请通俗的讲一下什么是数据挖掘

4. 求一些"数据仓库和数据挖掘"的案例

与商业智能相关的词汇有例如数据仓库，数据装载（ETL），数据挖掘（Data Mining）， 客户关系管理（CRM），SAS，PeopleSoft, SAP等。理清他们之间的关系才能准确制订个人职业发展规划。

  到上个世纪九十年代，以数据存储为目的的联机分析处理系统（OLTP）已经发展得相当成熟，关系型数据库的应用已经非常普及，大型企业或部门积累了大量原始数据。这些数据是按照关系型结构存储，在更新，删除，有效存储（少冗余数据）方面表现出色，但在复杂查询方面效率却十分低下。为充分利用已有数据，提供复杂查询，提供更好的决策支持，出现了数据仓库（Data Warehouse）。数据仓库与数据库（这里的数据库指关系型数据库）的区别在于，数据仓库以方便查询（称为主题）为目的，打破关系型数据库理论中标准泛式的约束，将数据库的数据重新组织和整理，为查询，报表，联机分析等提供数据支持。数据仓库建立起来后，定期的数据装载（ETL）成为数据仓库系统一个主要的日常工作。

  在数据仓库发展的同时，一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘也称为数据库知识发现（Knowledge Discovery in Databases, KDD），就是将高级智能计算技术应用于大量数据中，让计算机在有人或无人指导的情况下从海量数据中发现潜在的，有用的模式（也叫知识）。最初的数据挖掘应用一般需要从组织数据做起，经历算法设计（建模），挖掘，评价，改进等步骤。其中组织整理数据占据大部分时间，大约占到整个数据挖掘项目80%的时间。



  数据挖掘是近年来信息爆炸推动下的新兴产物，是从海量数据中提取有用知识的热门技术。传统的交易型系统，九十年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下，产生了大量的数据。但与之相配合的数据分析和知识提取技术在相当长一段时间里没有大的进展，使得存储的大量原始数据没有被充分利用，转化成指导生产的“知识”，形成“数据的海洋，知识的荒漠”这样一种奇怪的现象。

  数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关，又称为数据库知识发现(Knowledge Discovery in Databases，KDD)。数据挖掘不但能够学习已有的知识，而且能够发现未知的知识；得到的知识是“显式”的，既能为人所理解，又便于存储和应用，因此一出现就得到各个领域的重视。从80年代末的初露头角到90年代末的广泛应用，以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。目前数据挖掘技术在零售业的货篮数据（Basket data）分析、金融风险预测、产品产量、质量分析、分子生物学、基因工程研究、Internet站点访问模式发现以及信息搜索和分类等许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(www.amazon.com)，会发现当你选中一本书后，会出现相关的推荐数目“Customers who bought this book also bought”，这背后就是数据挖掘技术在发挥作用。

  数据挖掘的真正普及是建立在数据仓库的成功应用之上。一个设计完善的数据仓库已经将原始数据经过了整理和变换，在此基础上再进行深入挖掘就是顺理成章的事情。数据挖掘渗透到某些行业，产生了一些特定的应用，比如现在经常会听到的客户关系管理（Customer Relationship Management, CRM）。客户关系管理的概念由来已久，但现代的客户关系管理一般指以客户数据为处理对象的一类商业智能应用。通过挖掘客户信息，发现潜在的消费趋势或动向。比如电信公司通过分析用户通话模式（通话时间，时段，通话量等），制订不同的计费方案，满足用户的同时也提高自己的利润。同其它应用一样，客户关系管理发展到一定阶段，会出现相应的系统供应商。据2003年1月的一项调查，CRM市场的领先者从高到低依次为PeopleSoft, Seibel, Oracle, SAP. 微软公司也将加入CRM市场。

从上可以看出，商业智能的应用领域非常广泛。它通常以数据仓库为基础，以数据挖掘为核心，演变出类似CRM这样的应用。一个商业智能系统的开发涉及到很多知识和技能，能够从事商业智能系统开发，那当然是最好不过的。如果没有这样的机会，对于想进入商业智能领域的朋友，应该如何规划自己的职业发展？

  首先，根据自己想从事的应用领域，比照该行业商业智能应用所需的知识和经验，找出自己的长处和不足。比如已经有零售业，医药业，制造业的工作经验，或熟悉数据库，编程，人工智能，统计学等。然后补充自己的不足。通过与该领域有经验人士交流，查阅资料，自学或参加相关培训或选修大学课程都是弥补自己不足的手段。当你对将要从事的工作心中有数后，可以开始尝试申请入门级职位。不要编造经历，但要展示你对所申请职位所具备的相关经验（如 business方面的）和知识（会用到的技术，名词，清晰的概念）。在得到入门级职位后，要留心更高级职位用到的技术，软件等。然后利用业余时间继续补充相关知识。一旦内部有更高级职位的空缺，你又能够展示你具备的相关知识，就具有很强的竞争里，因为一般情况下公司都会愿意给内部职员一个尝试的机会的。

  如果既没有business背景，又没有数据挖掘方面经验，该如何寻求突破呢？下面的例子不是唯一的道路，有心的朋友应该能得到启发。

  一般正规的呼叫中心（这里指呼出服务）的工作方式是这样的：每天分析员根据现阶段的任务，从大量客户数据中筛选出响应可能性高的客户名单，交给业务代表；业务代表根据下达的客户名单做电话推销，对每个电话的结果做相应记录；根据客户实际响应情况，分析员调整筛选算法，选出第二天的客户名单；分析客户响应或不响应的原因。这就是一个典型的客户关系管理在呼叫中心应用的例子。

  取得一个呼叫中心客户代表的职位并不难。难的是有没有看到做客户代表除每小时11，12元工资外潜在的价值。通过做客户代表，应该对该中心使用的客户关系管理系统有了应用经验，通过与主管或分析员的交流，应该了解交到你手里的客户名单是怎么分析出来的。心中有数后，就是等待时机的出现了。一个客户筛选算法的改进建议，一个内部分析员职位的空缺，就是展示自己商业智能方面能力的机会。这时的你，已经具备了其他应聘者所不具备的优势：有相关工作背景知识，熟悉应用环境和内部主管，提前知道空缺消息…

  规划个人职业发展的时候，在众多考虑因素中有两个是非常重要的：所要投入的技术所处的发展阶段和能否结合已有专业知识。

  一种技术从提出到广泛应用（或失败被抛弃）有一定的发展周期，称为科学技术的生命周期（Technological life cycle）。该周期大致分为创新（Innovators），早期成长（Early adopters），分歧点（Chasm），早期流行（Early majority），晚期流行（Late majority）和衰退阶段（Laggards）。对于应用型技术人员来说，早期流行阶段是进入一个新技术领域的最佳时机，因为该技术已经通过分歧点的考验，又处于上升阶段，风险最小，竞争最少，更容易脱颖而出。数据挖掘技术现在就处在这样一个早期流行阶段。



  数据挖掘的对象是某一专业领域中积累的数据；挖掘过程是一个人机交互、多次反复的过程；挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, technique second”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反，有其它行业背景是从事数据挖掘的一大优势。如有销售，财务，机械，制造，call center等工作经验的，通过学习数据挖掘，可以提升个人职业层次，在不改变原专业的情况下，从原来的事务型角色向分析型角色转变。

  我们正处于一个信息爆炸的年代，能够在第一时间内获得或者找到最有价值的信息和资源，则成为企业在激烈地竞争中取胜的重要的因素，所以，商业智能（Business Intelligence）应运而生，而与之相关的技术和工具如Data Warehouse、 Data Mining、SAS则以惊人的速度得到快速、蓬勃的发展。

5. 数据挖掘的技术都有哪些？

如果我们学习数据分析，那么肯定少不了也要好好学习一下数据挖掘。我们都知道，要想掌握好数据挖掘就需要掌握很多的相关技术。一般来说，数据挖掘工作的技术有关联规则、分类、聚类、决策树、序列模式，下面我们就给大家讲述一下这些知识。
1.关联规则
首先我们给大家讲述一下关联规则，一般来说，关联规则使两个或多个项之间的关联以确定它们之间的模式。关联通常用于销售点系统，以确定产品之间的共同趋势。在数据挖掘中，这是一个非常简单的方法，人们会惊讶与其中有多少智慧和洞察，它可以提供许多企业的日常使用的信息，来提高效率和增加收入，应用领域包括物品的实物摆放组织、市场营销和产品的交叉销售和上销。所以解决商业问题离不开数据挖掘技术中的关联规则。
2.分类
然后给大家说一说分类我们可以使用多个属性来标记特定类别的项。分类将项目分配到目标类别或类中，以便准确地预测该类内部会发生什么。某些行业会将客户进行分类。通过分类我们能够知道其中的情况，然后根据这些情况进行下一步动作。
3.聚类
接着给大家说一下聚类，聚类是将数据记录组合在一起的方法，通常这样做是为了让最终用户对数据库中发生的事情有一个高层次的认识。查看对象分组情况可以帮助市场细分领域的企业。在这个例子中可以使用聚类将市场细分为客户子集。然后，每个子集可以根据簇的属性来制定特定的营销策略。
4.决策树
决策树用于分类或预测数据。决策树从一个简单的问题开始，它有两个或多个的答案。每个答案将会引出进一步的问题，该问题又可被用于分类或识别可被进一步分类的数据，或者可以基于每个答案进行预测。将数据分成多个叶结点，所有叶结点的数据记录数的加和等于输入数据的记录总数。例如，父结点中的数据记录总数等于其两个子结点中包含的记录总和。当在决策树上上下移动时，流失前和流失后的客户数量是需要存储的。能够很容易的理解模型的构建。如果你需要针对可能流失的客户提供一份市场营销方案，则该模型非常易于使用。
5.序列模式
序列模式识别相似事件的趋势或通常情况发生的可能。这种数据挖掘技术经常被用来助于理解用户购买行为。许多零售商通过数据和序列模式来决定他们用于展示的产品。根据客户数据，您可以识别客户在一年中不同时间购买的特定的商品集合。
通过上述的内容我们不难看出，数据挖掘工作基本上都是去解决商业问题的，所以对于产品经理来说，好好了解和掌握数据挖掘知识，对自己的职业发展是非常有帮助的，当然，只是了解这些还是不够的，我们还要学习更多的知识来丰富自己，让自己的职场人生更加光彩溢目。

数据挖掘的技术都有哪些？

6. 举一个数据挖掘的例子

百度一下啤酒和尿布的例子。  推荐入门切有意思的网络挖掘的书《集体编程智慧》

7. 数据挖掘

数据挖掘的营销应用（57，客户成长模型的营销应用）
我的评价：感觉这个客户成长模型的思路很好，我们要找到目标客户，我们要找到高成长性的目标客户！具体而言，第一步是简单的分析销售额，找到消费额呈上升趋势的客户，并简单分析，或者直接与其沟通，了解他们的特点和自身优势等；第二步是参照其他有商业价值的参数，例如年龄、性别、收入、行业，对电商来说浏览路径、接入关键词等，来从你的小客户中（例如界定为消费额小于××的客户），来识别未来会是消费额上升的客户，不一定非要用工具去挖掘，实在不行拿眼睛去看，excel去排序，然后跟客户聊，来验证自己的想法，同样可能会有不错的收获。这是我个人推测的，欢迎真正的实战经营来拍砖。

来源：http://shzxqdj.blog.163.com/blog/static/816705772009112092211776/

原文：

本案例翻译并整理自Susan Chiu and Domingo Tavella 合著的《Data Mining and Market Intelligence for Optimal Marketing Returns》。本案例更多的是从公司战略的角度看待数据挖掘的应用，开发新产品、评价成长性客户群体，积极利用成长性客户的特点提升公司的效益也让客户得到更多的合适的产品和服务。所以，不仅数据挖掘者可以从中借鉴挖掘技巧，企业的高管和营销专家更是可以从中开阔思路，提升眼界，增长见识，增添智慧。“光说不练是骗子，光练不说是傻子”，闲话少说，现在开讲,呵呵。

各行各业都是可以利用客户成长模型来提升现存客户的消费价值的。客户成长模型主要用来预测特定客户在一定时间段里显著提高其消费水平的可能性的数据挖掘模型。在实践中，大多数公司都是更加关注于那些具有显著消费上升潜力的客户，而不仅仅局限在关注客户当下的消费毛利。客户成长模型利用客户的消费历史数据，目标变量是客户在特定时间段里消费变化的高低（二元变量，当客户在指定时间段里消费价值上升超过事先确定的一个比例，目标变量为1；当客户在指定时间段里消费价值上升并没有超过事先的这个比例，目标变量为0），这个比例的确定因不同公司情况而有差别。

本案例要分享的是Safe Net保险公司利用逻辑回归算法来进行的客户成长模型搭建和投入应用的具体做法。Safe Net保险公司计划推出一种新的组合套餐产品，使得保险客户可以将几种不同的保险产品（健康险、汽车险、人寿险、意外险、房屋险）捆绑在一起，并采取固定的费率。这种新的产品将有效降低Safe Net保险公司的运营成本、提高公司由于交叉销售带来的收入的提升、同时也给保险客户带来明显的利益（因为他们由此可以更容易的打理他们的产品、并且享受很多折扣优惠）。为了尽量提高该新产品的营销效率，Safe Net保险公司决定利用客户成长模型帮助锁定那些最有可能增长保险消费的客户群体。

对于目标变量的定义是这样的，在过去三年里，如果一个客户的保险消费上升了5%以上，这个客户就是上升客户（二元目标变量中，取值为1；否则，取值为0）。公司随机抽取了95953个保险客户，其中70%（66915）用于模型的训练集，剩下的30%用于模型的验证集。下列变量作为模型的输入变量（家庭年收入、居住的州、职业、家庭成员的数量、投保者的年纪），通过逻辑回归模型的搭建和完善，下列有价值的线索引起了公司管理层的注意，并直接作用于该新产品的营销推广中。

第一，   从地理分布上看，居住在FL, DC, CA这些州的客户相比其他州的客户而言更加有可能提升他们的保险消费；

第二，   在服装、制造、建筑等行业工作的客户比其他行业的客户更加有可能提升他们的保险消费；

第三，   35-44岁年龄组的客户相比其他年龄组的客户更加有可能提升他们的保险消费；利用逻辑回归技术搭建的客户成长模型让Safe Net保险公司可以方便地评估公司的每个潜在目标受众，挑选出最有可能提升消费的那些客户群体，并针对这些客户进行精准的定向营销活动。

数据挖掘

8. 求一个数据挖掘的算法，在线等，可以追分

试论贝叶斯分类、决策树分类分类挖掘算法的优势与劣势，以及解决维度效应的策略 

引言 数据分类是指按照分析对象的属性、特征，建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一，主要是通过分析训练数据样本，产生关于类别的精确描述。这种类别通常由分类规则组成，可以用来对未来的数据进行分类和预测。分类技术解决问题的关键是构造分类器。 一．数据分类 数据分类一般是两个步骤的过程： 第1步：建立一个模型，描述给定的数据类集或概念集（简称训练集）。通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类，由类标号属性确定。用于建立模型的元组集称为训练数据集，其中每个元组称为训练样本。由于给出了类标号属性，因此该步骤又称为有指导的学习。如果训练样本的类标号是未知的，则称为无指导的学习（聚类）。学习模型可用分类规则、决策树和数学公式的形式给出。 第2步：使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类。 常用的分类规则挖掘方法 分类规则挖掘有着广泛的应用前景。对于分类规则的挖掘通常有以下几种方法，不同的方法适用于不同特点的数据： 1．贝叶斯方法 2．决策树方法 3．人工神经网络方法 4．约略集方法 5．遗传算法 分类方法的评估标准： 准确率：模型正确预测新数据类标号的能力。速度：产生和使用模型花费的时间。健壮性：有噪声数据或空缺值数据时模型正确分类或预测的能力。伸缩性：对于给定的大量数据，有效地构造模型的能力。可解释性：学习模型提供的理解和观察的层次。 影响一个分类器错误率的因素 (1) 训练集的记录数量。生成器要利用训练集进行学习，因而训练集越大，分类器也就越可靠。然而，训练集越大，生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。 (2) 属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合，使得生成器难度增大，需要的时间也更长。有时随机的关系会将生成器引入歧途，结果可能构造出不够准确的分类器（这在技术上被称为过分拟合）。因此，如果我们通过常识可以确认某个属性与目标无关，则将它从训练集中移走。 (3) 属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测标签（如试图根据某人眼睛的颜色来决定他的收入）。加入其他的属性（如职业、每周工作小时数和年龄），可以降低错误率。 (4) 待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布，那么错误率有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器，那么试图用它来对包含许多运动用车辆的记录进行分类可能没多大用途，因为数据属性值的分布可能是有很大差别的。 评估方法 有两种方法可以用于对分类器的错误率进行评估，它们都假定待预测记录和训练集取自同样的样本分布。 (1) 保留方法(Holdout)：记录集中的一部分（通常是2/3）作为训练集，保留剩余的部分用作测试集。生成器使用2/3 的数据来构造分类器，然后使用这个分类器来对测试集进行分类，得出的错误率就是评估错误率。虽然这种方法速度快，但由于仅使用2/3 的数据来构造分类器，因此它没有充分利用所有的数据来进行学习。如果使用所有的数据，那么可能构造出更精确的分类器。 (2) 交叉纠错方法(Cross validation)：数据集被分成k 个没有交叉数据的子集，所有子集的大小大致相同。生成器训练和测试共k 次；每一次，生成器使用去除一个子集的剩余数据作为训练集，然后在被去除的子集上进行测试。把所有得到的错误率的平均值作为评估错误率。交叉纠错法可以被重复多次(t)，对于一个t 次k 分的交叉纠错法，k ＊t 个分类器被构造并被评估，这意味着交叉纠错法的时间是分类器构造时间的k ＊t 倍。增加重复的次数意味着运行时间的增长和错误率评估的改善。我们可以对k 的值进行调整，将它减少到3 或5，这样可以缩短运行时间。然而，减小训练集有可能使评估产生更大的偏差。通常Holdout 评估方法被用在最初试验性的场合，或者多于5000 条记录的数据集；交叉纠错法被用于建立最终的分类器，或者很小的数据集。 二．贝叶斯分类 贝叶斯分类方法是一种具有最小错误率的概率分类方法，可以用数学公式的精确方法表示出来，并且可以用很多种概率理论来解决。 设（Ω,Θ,P）为概率空间，Ai∈Θ（i=1,2,…,n）为Ω的一个有穷剖分，且P(Ai)>0 (i=1,2,…,n)，则对任意B∈Θ且P(B)>0，有 P(Ai|B)= （i=1,2,…,n） 上式称为贝叶斯公式。贝叶斯定理为我们提供了一个计算假设h的后验概率的方法 P(h|D)= 分类有规则分类和非规则分类，贝叶斯分类是非规则分类，它通过训练集训练而归纳出分类器，并利用分类器对没有分类的数据进行分类。 贝叶斯分类的特点贝叶斯分类具有如下特点： (1) 贝叶斯分类并不把一个对象绝对地指派给某一类，而是通过计算得出属于某一类的概率，具有最大概率的类便是该对象所属的类； (2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用，即并不是一个或几个属性决定分类，而是所有的属性都参与分类； (3) 贝叶斯分类对象的属性可以是离散的、连续的，也可以是混合的。 贝叶斯定理给出了最小化误差的最优解决方法，可用于分类和预测。理论上，它看起来很完美，但在实际中，它并不能直接利用，它需要知道证据的确切分布概率，而实际上我们并不能确切的给出证据的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。 三．决策树分类 决策树（Decision Tree）又称为判定树，是运用于分类的一种树结构。其中的每个内部结点（internal node）代表对某个属性的一次测试，每条边代表一个测试结果，叶结点（leaf）代表某个类（class）或者类的分布（class distribution），最上面的结点是根结点。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。 构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉或多叉树，它的输入是一组带有类别标记的训练数据。二叉树的内部结点（非叶结点）一般表示为一个逻辑判断，如形式为(a = b)的逻辑判断，其中a 是属性，b是该属性的某个属性值；树的边是逻辑判断的分支结果。多叉树（ID3）的内部结点是属性，边是该属性的所有取值，有几个属性值，就有几条边。树的叶结点都是类别标记。 使用决策树进行分类分为两步： 第1步：利用训练集建立并精化一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。 第2步：利用生成完毕的决策树对输入数据进行分类。对输入的记录，从根结点依次测试记录的属性值，直到到达某个叶结点，从而找到该记录所在的类。 问题的关键是建立一棵决策树。这个过程通常分为两个阶段： (1) 建树（Tree Building）：决策树建树算法见下，可以看得出，这是一个递归的过程，最终将得到一棵树。 (2) 剪枝（Tree Pruning）：剪枝是目的是降低由于训练集存在噪声而产生的起伏。 决策树方法的评价。 优点 与其他分类算法相比决策树有如下优点： (1) 速度快：计算量相对较小，且容易转化成分类规则。只要沿着树根向下一直走到叶，沿途的分裂条件就能够唯一确定一条分类的谓词。 (2) 准确性高：挖掘出的分类规则准确性高，便于理解，决策树可以清晰的显示哪些字段比较重要。 缺点 一般决策树的劣势： (1) 缺乏伸缩性：由于进行深度优先搜索，所以算法受内存大小限制，难于处理大训练集。一个例子：在Irvine机器学习知识库中，最大可以允许的数据集仅仅为700KB，2000条记录。而现代的数据仓库动辄存储几个G-Bytes的海量数据。用以前的方法是显然不行的。 (2) 为了处理大数据集或连续量的种种改进算法（离散化、取样）不仅增加了分类算法的额外开销，而且降低了分类的准确性，对连续性的字段比较难预测，当类别太多时，错误可能就会增加的比较快，对有时间顺序的数据，需要很多预处理的工作。 但是，所用的基于分类挖掘的决策树算法没有考虑噪声问题，生成的决策树很完美，这只不过是理论上的，在实际应用过程中，大量的现实世界中的数据都不是以的意愿来定的，可能某些字段上缺值（missing values）；可能数据不准确含有噪声或者是错误的；可能是缺少必须的数据造成了数据的不完整。 另外决策树技术本身也存在一些不足的地方，例如当类别很多的时候，它的错误就可能出现甚至很多。而且它对连续性的字段比较难作出准确的预测。而且一般算法在分类的时候，只是根据一个属性来分类的。 在有噪声的情况下，完全拟合将导致过分拟合（overfitting），即对训练数据的完全拟合反而不具有很好的预测性能。剪枝是一种克服噪声的技术，同时它也能使树得到简化而变得更容易理解。另外，决策树技术也可能产