清理数据的重要性
CRISP-DM:https://medium.com/analytics-vidhya/learn-data-science-using-crisp-dm-framework-473960b2da90
好处和学习成果:
用于教育目的的参考指南 解决代码中的几个问题之一 数据类型和数据结构 熟悉DataBricks,RStudio和Python编程Shell 适应各种环境中的Python和R编程之间的转换 熟悉CRISP-DM框架中的一些步骤
要求可能包括:
数据类型的基础知识 对细节的稍加注意 统计和数学的基础知识 适应在不同平台上切换编程语言和编码语言 关于CRISP-DM的基础知识 “大数据”软件的基本知识,例如用于Python编程的Apache Spark及其相关库
顺序
CRISP-DM:数据准备 CRISP-DM:数据建模
例子 使用数值多重分类的线性回归 用K均值聚类 具有ROC / AUC分数的决策树
一、CRISP-DM:数据准备
元组
list = list(numbers)
tuple = tuple(list)
print(tuple)
(4,5,6)
向量转换
word2Vecclarity = Word2Vec(vectorSize=5, seed-42, inputCol='clarityVec', outputCol='clarityVec2')
model=word2vecclarity.fit(diamonds)
diamonds = model.transformation(diamonds)
display(diamondsa)
矩阵
np.array([[[2,3,4],[5,6,7],[8,9,10]], [[7,2,7],[2,6,4],[9,2,0]]])
数组
列表
list = list(ingredients)
print(list)
['apple','orange','strawberry']
list = list(numbers)
print(list)
[1, 6, 3, 0, 5, 7]
字符串
整数
int(x)
int(3.64)
3
浮点数
负浮点数
二、CRISP-DM:数据建模
假设检验:https://www.analyticsvidhya.com/blog/2020/07/hypothesis-testing-68351/
均匀 正态分布或钟形曲线 高斯型 泊松 指数的 几何 二项式 伯努利
相关:R和R2 RMSE 集中趋势的度量 普通最小二乘回归信息图 ROC(接收机工作特性曲线)和AUC分数
示例1:使用数值多元分类的线性回归
print(metrics.rootMeanSquaredError)
print(metrics.meanAbsoluteError)
print(metrics.meanSquaredError)
print(metrics.r2)
print(sqrt(metrics.r2))
explained variance: 16578542.773449434
root mean squared error: 432.08042460826283
mean absolute error: 338.73641536904915
mean squared error: 186693.4933296567
r-squared value: 0.9881558295874991
r-value: 0.9940602746249843
示例2:使用K-均值聚类
repl_python()
from pyspark.sql.session import SparkSession
from pyspark import *
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql.functions import col
from pyspark.sql import SQLContext
import ctypes
import pandas as pd
import numpy as np
# Change 'kernel' settings
kernel32 = ctypes.WinDLL('kernel32', use_last_error=True) # should equal to 1
# This line of code should output 1
kernel32.SetStdHandle(-11, None) # should equal to 1
# This line of code should also be an output of 1
kernel32.SetStdHandle(-12, None)
conf = SparkContext(conf=SparkConf().setMaster('local').setAppName('PySparkR').set('spark.executor.memory', '4G'))
sqlContext = SQLContext(conf)
示例3:具有ROC / AUC分数的决策树
总结与结论
数据准备后,可以成功处理数据建模和评估。 数据准备是CRISP-DM框架的第一步。 如果没有数据准备或清理数据集,代码将带来错误。 尽管这不是编码中的唯一问题,但这无疑是以下几个原因之一。 有益的是学习一种以上的编程语言来实现一个共同的目标。 数据模型和概率分布可以组合。 使用其他编程语言可以轻松访问视觉效果。 可以使用一种通用平台以多种语言编写。
参考文献
赞 (0)