【自动保存】python...

​题型:

1、单项选择题(1分*20= 20分)

2、算法基础(15+10+15分,,共40分)

3、算法实现(20分*2=40分)

重点

1、常见的数据的类型

关系数据库

事务数据库

数据仓库

高级数据库系统与信息库

2、数据质量多维度量

3、众数(mode)、中位数(median)、中列数(midrange)

中列数是数据集的最大和最小值的平均值

4、极差、方差、标准差、四分位数和四分位数极差

简单看书就行

5、五数概括与箱线图

五数概括:30,47.75,54,68.25,110箱线图:30,47.75,54,68.25,70异常点:110

步骤计算3q n+1 法算法基础中有

最小 3q 最大

箱线图 去掉异常点

6、相似性(Similarity)、相异性 (Dissimilarity)、邻近性(proximity )

相似性( Similarity )⚫一个数值的度量俩个对象之间的类似程度◼ 相异性 (Dissimilarity)⚫一个数值的度量俩个对象之间的相异程度◼ 邻近性(proximity )⚫相似性和相异性统称邻近性

7、数据预处理的主要方法

8、噪声数据的概念,处理噪声数据的方法

方法 聚类 回归方法  分箱

9、缺失值处理的方法

10、  等高、等宽bin箱数据转换处理,箱边界平滑,箱平均值平滑

例子

11、  数据仓库的四个基本特征

12、  数据粒度的概念

13、  流行的数据仓库的存储形式

14、  OLAP的基本操作

15、  OLAP和OLTP的区别

16、  支持度、置信度的计算

17、  关联规则中的K-项集、事务、强规则、频繁项集、

18、  聚类和分类的本质区别

19、  聚类性能评价

误差平方和

20、  分类算法中的 训练集、 测试集、预测集

21、  ID3(C 5.0)算法的熵、信息熵、增益(gain)的概念及算法

22、  混淆矩阵与分类算法的评价

23、  常见的分类算法

24、  常见的聚类算法

算法基础

1.      距离:欧几里得距离(Euclidean距离)、曼哈顿距离(Manhattan距离,绝对距离,城市块距离)、闵可夫斯基距离(Minkowski距离)、切比雪夫 (Chebychev) 距离

切比雪夫距离 国际象棋中国王走法

max(x1-x2,y1-y2)

2.      数据转换: “最小-最大规范化”、“z-score规范化” p144

例题

假设属性收入的最大最小值分别是11000元和91000元,利用最大最小规范化的方法将属性的值映射到0至1的范围内,对属性收入的52000元将被转化为:

A、52000/(91000-11000)=0.65

B、(52000-11000)/(91000-11000)=0.5121

C、(91000-11000)/91000=0.8791

D、(91000-52000)/(91000-11000)=0.4875

答案:B

零-均值规范化也称标准差标准化,经过处理的数据的均值为0,标准差为1。转化公式为:

标准差的计算步骤

平均值

每个数减去平均值后的平方和

平方和除于总数得方差

方差开方的标准差

其中

为原始数据的均值,

为原始数据的标准差,是当前用得最多的数据标准化方式。标准差分数可以回答这样一个问题:"给定数据距离其均值多少个标准差"的问题,在均值之上的数据会得到一个正的标准化分数,反之会得到一个负的标准化分数。

3.      异常点分析:1.5倍IQR标准,均值±2×标准差 标准。

p(32)

如何确定 q1 q2 q3 n+1 法

例:数据总量: 7, 15, 36, 39, 40, 41一共6项Q1在第一与第二个数字之间:(6+1)*0.25=1.75,Q2为该组数列的中位数: (6+1)*0.5=3.5,Q3在第五与第六个数字之间:(6+1)*0.75=5.25𝑋2 − 𝑄1𝑋2 − 𝑋1=2 − 1.752 − 1𝑄1 = 0.75𝑋2 − 0.25𝑋1 = 13𝑋4 − 𝑄2𝑋4 − 𝑋3=4 − 3.54 − 3𝑄2 = 0.5𝑋4 + 0. 5𝑋3 = 37.5𝑋6 − 𝑄3𝑋6 − 𝑋5=6 − 5.256 − 5𝑄3 = 0.25𝑋6 + 0. 75𝑋5 = 40.25

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(Inter Quartile Range, IQR)。

⚫异常点阈值=均值±2×标准差salary 数据(in thousands of dollars), 升序排列(12个)30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110.均值=58; 标准差=19.47阈值=均值±2×标准差阈值区间:[19.06, 96.94]异常点:110

4.      余弦相似性

5.      变量相异度(包括数值型、二元型、标称型、序数型,以及混合型)(重要)

基于对称的相异度

计算公式

基于非对称的相异度

算法:

1、关联规则(Apriori算法)

2、聚类算法(k-means)

例子

然后重新确定中心点,直到某个值的中心值不变

3、分类(KNN算法)

以ppt为准,比较简单

​4、分类(ID3决策树的算法)

这个不会

(0)

相关推荐