浅析数据挖掘技术的基本步骤

无论是做事情,想要提升效率,一方面需要搞清楚事情本身相关信息,另一方面需要搞清楚事情的基本流程或者步骤,同样的数据挖掘也是同样的道理。那么数据挖掘技术的基本步骤是怎么样的呢?

数据挖掘技术的基本步骤

1、建立适用于实际问题需要的,具有问题所在领域特点的数据仓库。它的作用是将一个数据库系统从以存储数据为主要目的转变为以分析利用数据为主要目的。虽然现有的数据库可以方便地存储海量数据,同时也发展出了一定的技术,例如在线分析处理,供用户进行查询,但它不支持对查询结果进行分析归纳的能力,仍然依赖于人工对查询结果进行分析、处理和建模,仍然依赖于手工方法来用新的数据测试所建模型。

2、从数据仓库所存储的数据中选取一个合适的数据集,以作为数据挖掘算法的原始输入。这牵涉到对于数据的统一性、时变性、数据采集方法、采样数据充分与否、数据维数等方面的考虑。

3、数据预处理。包括对噪声的消除,对缺损数据的补齐方式,对数据做适当的标准化处理。

4、数据的降维与变换。对于维数很高的数据,寻找出最能够反映其特征的那几维分量,将高维数的数据空间转换为易解决的低维数的数据空间来处理。

5、确定数据挖掘的任务。根据实际需要,决定数据挖掘的目标是建立预测性模型、聚类、数据摘要或是突变和偏差检测中的哪一类。

6、决定数据挖掘的具体算法。决定何种方法可以适用于处理当前的数据类型。这种选择具体算法模型和参数的过程是整个数据挖掘过程中十分关键的一步。

7、进行数据挖掘的具体处理。依据最终目的的不同,选择使用分类算法或者是决策树算法、回归算法、聚类算法或者是建立相关性模型的相应算法,以得出有用的结论。

8、对数据挖掘得出的结果进行检验。主要基于以下几个方面:

a. 利用结论对其它来源的信息做校核;

b. 利用图表等直观的可视化手段辅助分析,决定所得结论的有用程度;

c. 由用户自行决定所得出结论的有用程度。

9、将所得结论应用于实际。要求对数据挖掘到的结果进行校验,解决其与原本所认同的概念、看法之间的矛盾。

数据挖掘技术大致可分为 9个基本步骤,但各个步骤之间不是相互独立的,而是密切相关的,一个步骤的改变不仅会牵涉到随后诸步骤的相应变动,而且还会导致先前各步骤的变更。

(0)

相关推荐

  • 如何使用PCA去除数据集中的多重共线性?

    多重共线性是指自变量彼此相关的一种情况.当你拟合模型并解释结果时,多重共线性可能会导致问题.数据集的变量应该是相互独立的,以避免出现多重共线性问题. 在本文中,您可以阅读为什么多重共线性是一个问题,以 ...

  • 盘点数据挖掘包括哪些部分?

    大数据的时代我们人人身处其中,那么对于大数据的挖掘就是十分有价值的了,数据挖掘包括以下三点: 数据预处理 之所以有这样一个步骤,是因为通常的数据挖掘需要涉及相对较大的数据量,这些数据可能来源不一导致格 ...

  • 浅析IT 技术架构演变之路

    云计算的三层服务形式实际上也是资源整合层次的划分: IaaS层解决的是计算资源的整合,通过分布式计算和虚拟化技术, 将CPU.内存.I/O设备.存储和计算能力整合成一个虚拟的资源池为 整个业界提供所需 ...

  • 复合树脂直接修复技术-五个步骤

    复合树脂直接修复技术-五个步骤

  • 浅析5G技术为AGV机器人的发展带来了怎样的好处?

    柔性化生产模式在最少人力干预下能够快速变更产品生产流程,并催生了一系列新技术的需求.比如物联网技术,5G网络的应用等.作为连接人.机器和设备的关键支撑技术,物联网正在进入高速发展期.5G技术更是进一步 ...

  • 【每天一课】教练技术四个步骤之“行动计划”

    "行动计划"针对成果而言是很重要的环节,这在教练技术课程是一个重要的步骤,教练技术分体验式课程和理论课程,理论课程有CCCP,叫做教练理论或者叫管理教练理论,还有教练智慧和教练核能 ...

  • 花卉栽培种植技术七个步骤

    2013/7/14 11:54:19 二.浇水 浇水操作对花卉栽培来说至关重要,很多人往往由于掌握不好这项技能而影响了花卉栽培的效果. 花卉类型:不同的花卉,需水量也不同,例如,水生植物一刻也离不开水 ...

  • 细胞凋亡技术实验详细步骤

    一.实验目的 1.掌屋凋亡细胞的形态特征 2.学会用荧光探针对细胞进行双标记来检测正常活细胞.凋亡细胞和坏死细胞的方法 二.实验原理 细胞死亡根据其性质.起源及生物学意义区分为凋亡和坏死两种不同类型. ...

  • 浅析此项技术在未来联合作战中的应用

    随着信息处理技术和网络技术的发展,仿真技术在军用和民用领域不断发挥更为重要的作用.面对未来的联合作战,仿真技术能否有新的应用?本文对仿真技术在未来联合作战中的应用进行了初步探析与讨论,其应用主要体现在 ...

  • 第一章:四川卤菜制作技术,详细步骤讲解,分析透彻,适合开店

    四川卤菜制作技术 [卤菜制作] 原材料:猪买肉半个2500克,猪舌头2个1000克,猪尾巴2根400克,猪耳朵2个300克,猪蹄2个1000克,净三黄鸡1只1200克,鸭头5个500克,鸭翅4根500 ...

  • GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序

    第一讲:GEO,表达芯片与R 第二讲:从GEO下载数据得到表达量矩阵 第三讲:对表达量矩阵用GSEA软件做分析 第四讲:根据分组信息做差异分析 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集 ...