清理数据的重要性

2024-08-03 03:29:00

介绍

在精神上和卫生上进行清洁的概念在任何健康的生活方式中都是非常有价值的。

数据集有些是相同的。如果没有在数据科学生命周期中进行清理或作为日常活动进行清理，那么出于任何目的的代码将根本无法工作。

在数据分析中，选择了许多生命周期。在这里，我选择了CRISP-DM框架，并专注于步骤3 –数据准备。

CRISP-DM：https://medium.com/analytics-vidhya/learn-data-science-using-crisp-dm-framework-473960b2da90

好处和学习成果：

用于教育目的的参考指南
解决代码中的几个问题之一
数据类型和数据结构
熟悉DataBricks，RStudio和Python编程Shell
适应各种环境中的Python和R编程之间的转换
熟悉CRISP-DM框架中的一些步骤

要求可能包括：

数据类型的基础知识
对细节的稍加注意
统计和数学的基础知识
适应在不同平台上切换编程语言和编码语言
关于CRISP-DM的基础知识
“大数据”软件的基本知识，例如用于Python编程的Apache Spark及其相关库

本文将结合Python Shell、DataBricks和RStudio，介绍Python编程和R编程。

注意：这假定库和代码都兼容并且熟悉对上述平台的合理访问。

顺序

CRISP-DM：数据准备
CRISP-DM：数据建模

例子

使用数值多重分类的线性回归

用K均值聚类

具有ROC / AUC分数的决策树

一、CRISP-DM：数据准备

无论代码中包含哪些包和模块，数据类型都将决定是否可以使用代码将数据集输入算法中。

以下Python编程数据类型可以包括但不限于：

元组

numbers = (4,5,6)
list = list(numbers)
tuple = tuple(list)
print(tuple)
(4,5,6)

向量转换

在DataBricks中将字符串或字符串数组转换为Vector数据类型

DataBricks是一个类似于云的在线平台，允许出于教育目的进行编码。

DataBricks由其自己的结构和目录或路径组成。为了使用任何编程语言，始终必须启动“内核”。

该平台几乎类似于一个编程笔记本，可视化数据是用户友好的。

import Word2Vec
word2Vecclarity = Word2Vec(vectorSize=5, seed-42, inputCol='clarityVec', outputCol='clarityVec2')
model=word2vecclarity.fit(diamonds)
diamonds = model.transformation(diamonds)
display(diamondsa)

矩阵

数组（不止一个）维的数量确定该数组是否为矩阵。

np.array([[2,3,4],[5,6,7],[8,9,10]])
np.array([[[2,3,4],[5,6,7],[8,9,10]], [[7,2,7],[2,6,4],[9,2,0]]])

数组

np.array([2,3,4])

列表

ingredients = 'apple', 'orange', 'strawberry'
list = list(ingredients)
print(list)
['apple','orange','strawberry']

numbers = 1, 6, 3, 0, 5, 7
list = list(numbers)
print(list)
[1, 6, 3, 0, 5, 7]

字符串

str('I have quotation marks')

整数

x = 3
int(x)
int(3.64)
3

浮点数

整数将在其值上添加小数点后第十位。

负浮点数

在将数据集转换为视觉图像，存储数据和将数据集用于机器学习预测时，数据类型很重要。

二、CRISP-DM：数据建模

成功清理数据后，即可完成数据建模。

以下是一些模型以及每个模型的简要提要：

尽管这些是通常的定义，但是模型可以组合到一个代码中，并且可以用于不同的目的。

了解一些统计概率分布将有助于衡量性能和准确性得分。概率分布的另一个目的是假设检验。

假设检验：https://www.analyticsvidhya.com/blog/2020/07/hypothesis-testing-68351/

一些概率分布包括：

均匀
正态分布或钟形曲线
高斯型
泊松
指数的
几何
二项式
伯努利

一些测量评分指标包括：

相关：R和R²
RMSE
集中趋势的度量
普通最小二乘回归信息图
ROC（接收机工作特性曲线）和AUC分数

示例1：使用数值多元分类的线性回归

该数据集与珠宝价格有关。

Databricks平台上显示的用于python中向量的示例可以帮助解释任何机器学习代码或算法如何需要特定的数据结构和数据类型。

从文本到数字，更改选定列的数据类型可以产生有效的数据集，并输入到机器学习算法中。

由于在此示例中涉及价格，因此包含了称为连续数的数字的不同变化。

这表明这是一个使用数字多重分类方法进行测量的方法。

下图是数据集的数据类型方案：

将清理后的数据集输入到你选择的任何机器学习算法中（此示例使用Python Spark）后，即可进行可视化。

下图是DataBricks中数据集的可视化。

解释：预测与价格密切相关，但代码中有一些噪音。这是一个成功的机器学习代码和可视化图。如果没有DataBricks，则根据你喜欢的库（Matplotlib，Seaborn）绘制图形，并将价格和预测与所选图的图形标签和颜色重叠。

解释：预测和价格数据点之间的差异。_C0是一个ID号，在相关性或统计结果中没有太大的价值。但是，它确实显示了波动的模式，有峰有谷。这是一次对噪音的仔细检查。

清理后的另一个好处是可以使用度量标准来度量结果。

这是一份不错的结果清单。

结果表明，该代码可以预测珠宝的价格。

虽然列出了解释的方差，均方根误差，均方根绝对误差和均方根误差，但在判断结果之前要参考特定范围。

判断基于先前的研究结果，并确定将这些结果与过去进行比较的可信度和可靠性。这些数字最终将被置于一定范围内。如果这些数字在最小和最大范围之间，则可以接受。如果不是，那是不可接受的。简而言之，它基于上下文。

始终知道R平方值和R值是介于0和1之间的数字。0表示弱，1表示强。

从数学中导入sqrt后，可以进行以下度量。

print(metrics.explainedvariance)
print(metrics.rootMeanSquaredError)
print(metrics.meanAbsoluteError)
print(metrics.meanSquaredError)
print(metrics.r2)
print(sqrt(metrics.r2))
explained variance:  16578542.773449434
root mean squared error:  432.08042460826283
mean absolute error:  338.73641536904915
mean squared error:  186693.4933296567
r-squared value:  0.9881558295874991
r-value:  0.9940602746249843

示例2：使用K-均值聚类

二进制或限于两个类别

该数据集与金融信贷数据有关。目的是在继续为个人帐户提供服务之前检测财务欺诈。

选项是无限的，这是有几个在RStudio中使用Python编程语言的示例。

下面的代码显示：软件包安装，内核和Spark上下文设置

library(reticulate)
repl_python()

from pyspark.sql.session import SparkSession
from pyspark import *
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql.functions import col
from pyspark.sql import SQLContext
import ctypes
import pandas as pd
import numpy as np

# Change 'kernel' settings
kernel32 = ctypes.WinDLL('kernel32', use_last_error=True) # should equal to 1

# This line of code should output 1
kernel32.SetStdHandle(-11, None) # should equal to 1

# This line of code should also be an output of 1
kernel32.SetStdHandle(-12, None)
conf = SparkContext(conf=SparkConf().setMaster('local').setAppName('PySparkR').set('spark.executor.memory', '4G'))
sqlContext = SQLContext(conf)

K-均值聚类是用于在本示例中构造预测的统计模型，用于将数据集预测二进制或分类为两个区域。结果有助于区分数据点以准确预测未来价值。

此处，“ Predictionst” –在Python Spark数据帧内计算所选集群的数量。

示例3：具有ROC / AUC分数的决策树

该数据集与前面提到的金融信用数据集大致相同。

以下是数据集的一些指标得分。

ROC(receiver operating characteristic curve)在RStudio中使用Rattle评分。

从Python编程语言中输入的RStudio数据集，可以将保存数据集的变量转换为R和Rattle。

使用了不同的模型，但是使用了相同的数据集。ROC / AUC分数被认为是不错的分数。

部分决策树输出：

解释：该图像是决策树的一部分。图片显示了数据集中每个变量的优缺点。

解释：下图使用R-Programming中的Rattle来显示数据点之间判别坐标的可视化。因为设置了2个聚类的K均值，所以显示了两个聚类，并且数据点用一个极值表示的三角形表示，将另一个极值表示成圆形。

总结与结论

数据准备后，可以成功处理数据建模和评估。
数据准备是CRISP-DM框架的第一步。
如果没有数据准备或清理数据集，代码将带来错误。
尽管这不是编码中的唯一问题，但这无疑是以下几个原因之一。
有益的是学习一种以上的编程语言来实现一个共同的目标。
数据模型和概率分布可以组合。
使用其他编程语言可以轻松访问视觉效果。
可以使用一种通用平台以多种语言编写。

参考文献

[1] W3schools, (2020). Python Change Tuple Values. Python Tuple Data Types on W3schools.

[2] W3schools, (2020). Python – Matrix. Python Matrix on W3schools.

[3] Scikit-Learn, (2020). Choosing the right estimator. Estimators on Scikit-Learn.

☆ END ☆

Python是什么?Python入门！

现如今,Python已经成为当下非常热门的编程语言,反超众多编程语言前辈,位居四大编程语言之一,可以应用在众多领域,因此越来越多的人都加入到Python学习大军,那么Python是什么?为什么Pyth ...
Python编程必备工具，推荐这五个！

python是编程入门者非常不错的选择,现在不少程序员都开始转行到python行列中,因为简单易学.应用范围广,不过学习python还是需要一个好的工具,否则会吃不少苦头,那么Python编程必备5大 ...
Python可以做Web开发吗？

Python是一门通用性编程语言,可以应用的领域有很多,比如说Web开发.提及WEB开发,很多人会问那么多编程语言可以用于WEB开发,为什么要选择Python呢?我们来看看吧. 低入门门槛,Pytho ...
十大最佳Python书籍[2021年更新]

Python编程–计算机科学入门(第3版)随着软件热潮中就业机会的增加,对python开发人员的需求很大.可以通读概念并实践逻辑方法解决方案,从而掌握Python编程技能. Python编码书籍使您可 ...
Python官方推荐30本面向初学者的书籍！你看过几本？

Python官方推荐30本面向初学者的书籍!你看过几本? 「已注销」 2020-09-27 10:25:43 282 收藏文章标签: python 程序人生经验分享恰饭深度学习版权现在 ...
两款代码最佳神器，手机也可以轻松码代码！

#你是否有过这样的经历刚开始学编程的时候非常有「激情」时时刻刻都想着学习代码但很多时候又没法时刻带着电脑今天来介绍两款手机端编译软件让你可以利用碎片时间学编程往下翻看,解锁答案
Python与NodeJS的比较，2020年开发者该如何选择

随着技术以如此快的速度发展,现在我们有必要选择合适的工具来使用.每个软件项目都有它需要满足的多个需求和规范,因此为了满足这些需求,选择一种编程语言以允许您以有效的方式开发和管理项目非常重要. 由于有许 ...
强者一出，谁与争锋？与Python相比，C＋的运行速度究竟有多快？|python|编程语言|字符串|示例|算法

对于数据科学家而言,热爱Python的理由数不胜数.但你是否也曾问过这样的问题:Python和C或C++等更专业的低级编程语言究竟有何不同呢?我想这是很多数据科学家或者Python用户曾经问过或者将来 ...
互助问答第469期：关于清理数据思路的问题

关于清理数据思路的问题由于是一个自己课题组的调研数据,所以没有相关的文献参考.首先,我看过一些清理数据的教程视频,我来这里提问的目的主要想请有经验做过的老师大致说一下总体思路,不需要说具体步奏操作! ...
IPFS的数据存储重要性，全网算力已超过7EIB

本文章不做投资建议,只做分享.喜欢的收藏关注加转发. 哈喽,大家好,我是你们的老朋友,今天我们聊一聊IPFS的数据存储重要吗?全网算力今天已超过7Eib.FIL今年能涨到500优吗?据ipfs最新消息 ...
恢复出厂设置和刷机有什么区别？哪个清理数据更彻底？

在使用手机的过程中,我们难免会遇到一些故障,或者手机内垃圾文件太多,想要一次性清理干净.比起一个个的去删除,直接一次性格式化重置会更方便一些.不过一次性格式化重置有两种方法,一个是恢复出厂设置,一个是 ...
22条茶叶大数据告诉你：喝茶的重要性！

中国人爱喝茶,且取法于自然,注重无添加.绿茶.红茶.黑茶.花茶,茶之四味似天地四季. 但是,您知道茶与癌症的关系吗?这些都是真实的数据!喝茶前,务必看看这些震撼的事实吧! 01 喝茶地区目前全球有1 ...
这款神器，可以清理微信QQ隐私数据，真的绝了！

公众号资源来源于互联网,仅供学习交流使用,勿用于其他用途,如有侵权,请联系小编删除! 相信大家都会用微信和QQ吧,自然也知道它们会占用超级多的内存,而且很多都是没用的东西,但是清理不便,而且会莫名其妙 ...
在应用Stata在进行计量回归之前，你真的会进行数据清理么？

来源:风哗啦啦啦少年为什么要做数据清理呢?因为90%以上的原始数据因为各种原因都存在错误.如果在数据分析前,没有把这些问题清理好,很有可能导致后面数据分析不出真实的结果.数据清理就是把"脏 ...
科研 | BMC Genomics：小鼠肠道转录组学数据的高水平整合突出了补体系统在粘膜稳态中的重要性

编译:冬日暖阳,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 哺乳动物的胃肠道对于消化和吸收营养,能量代谢以及肠屏障的动态平衡和粘膜免疫至关重要.哺乳动物粘膜免疫系统的许多专门适应性进化已发展为与微 ...
数据分析前的数据清理--异常值检测

对数据的处理是进行数据分析的基础,为保证分析结果的可靠性和正确性,对数据的处理需要考虑三点: 首先,数据录入的准确性以及异常值的处理: 其次,缺失值的处理: 最后,数据是否符合所使用的的分析方法的使用 ...
Excel「去重且合并同类项」，工作时不会这样数据清理，简直要累趴！

Excel情报局 OFFICE爱好者大本营用1%的Excel基础搞定99%的职场工作做一个有价值感的Excel公众号 Excel是门手艺玩转需要勇气数万Excel爱好者聚集地自我提升也是一种 ...