使用PyCaret对时间序列数据进行无监督异常检测的分步教程

2024-06-17 05:08:02

介绍

这是有关使用PyCaret的无监督异常检测模块检测时间序列数据异常的循序渐进，入门者友好的教程。

本教程的学习目标

什么是异常检测？异常检测的类型。
业务中的异常检测用例。
使用PyCaret训练和评估异常检测模型。
标记异常并分析结果。

PyCaret

PyCaret是开放源代码，低代码的机器学习库和Python内置的端到端模型管理工具，用于自动化机器学习工作流程。它以其易用性，简单性以及快速高效地构建和部署端到端ML原型的能力而广受欢迎。

PyCaret是一个备用的低代码库，可用于仅用几行代码替换几百行代码。这使得实验周期成倍快速高效。

在PyCaret中执行的所有操作都顺序存储在完全自动化的管道中以进行部署。无论是输入缺失值，一键编码，转换分类数据，功能工程，甚至是超参数调整，PyCaret都能自动执行所有操作。

安装PyCaret

安装PyCaret非常容易，只需几分钟。强烈建议使用虚拟环境，以避免与其他库冲突。

PyCaret的默认安装是pycaret的超薄版本，仅安装此处列出的硬依赖项。

# 安装迷你版本 (默认)
pip install pycaret
# 安装完整版
pip install pycaret[full]

什么是异常检测

异常检测是一种用于识别稀有物品，事件或观察结果的技术，该发现与大多数数据有明显差异，从而引起怀疑。

通常，异常项将转换为某种问题，例如：

银行欺诈，
结构缺陷
医疗问题
错误等

异常检测算法可以大致分为以下几类：

A)监督的：当数据集具有标识哪些交易是异常交易和哪些交易是正常交易的标签时使用。（这类似于监督分类问题）。

B)无监督：无监督意味着没有标签，并且模型对完整数据进行了训练，并假设大多数实例是正常的。

C)半监督：仅在正常数据上训练模型（没有任何异常）。当训练模型用于新数据点时，它可以预测新数据点是否正常（基于训练模型中数据的分布）。

PyCaret异常检测模块

PyCaret的异常检测模块是一种无监督的机器学习模块，用于识别稀有物品，事件或观察结果。它提供了15种以上的算法和多张图，以分析经过训练的模型的结果。

数据集

我将使用NYC出租车乘客数据集，其中包含2014年7月至2015年1月每半小时间隔的出租车乘客人数。您可以从此处下载数据集。

import pandas as pd
data = pd.read_csv('https://nyc_taxi.csv')
data['timestamp'] = pd.to_datetime(data['timestamp'])
data.head()

# 建立移动平均
data['MA48'] = data['value'].rolling(48).mean()
data['MA336'] = data['value'].rolling(336).mean()# plot
import plotly.express as px
fig = px.line(data, x="timestamp", y=['value', 'MA48', 'MA336'], title='NYC Taxi Trips', template = 'plotly_dark')
fig.show()

数据准备

由于算法无法直接使用日期或时间戳记数据，因此我们将从时间戳记中提取特征，并在训练模型之前删除实际的时间戳记列表。

# 删除移动平均列
data.drop(['MA48', 'MA336'], axis=1, inplace=True)
# 将时间戳设置为索引数据
data.set_index('timestamp', drop=True, inplace=True)
# 将时间序列重新采样为每小时
data = data.resample('H').sum()
# 数据中的生物特征
data['day'] = [i.day for i in data.index]
data['day_name'] = [i.day_name() for i in data.index]
data['day_of_year'] = [i.dayofyear for i in data.index]
data['week_of_year'] = [i.weekofyear for i in data.index]
data['hour'] = [i.hour for i in data.index]
data['is_weekday'] = [i.isoweekday() for i in data.index]
data.head()

实验设置

该setup功能是PyCaret中所有模块的共同点，是在PyCaret中启动任何机器学习实验的第一步，也是唯一的必需步骤。除了默认情况下执行一些基本处理任务外，PyCaret还提供了广泛的预处理功能

# init setup
from pycaret.anomaly import *
s = setup(data, session_id = 123)

每当您setup在PyCaret中初始化函数时，它都会剖析数据集并推断所有输入要素的数据类型。在这种情况下，您可以看到day_name并被is_weekday推断为分类的，而被推断为数字的。您可以按Enter继续。

模型训练

要检查所有可用算法的列表：

＃检查可用模型的列表
models（）

在本教程中，我使用的是Isolation Forest，但是您可以将下面代码中的ID“ iforest”替换为其他任何模型ID，以更改算法。

iforest = create_model('iforest', fraction = 0.1)
iforest_results = assign_model(iforest)
iforest_results.head()

请注意，添加了两个新列，即Anomaly 包含离群值1和离群值0，Anomaly_Score 这是一个连续值，也称为决策函数（在内部，该算法将计算得分，以此来确定异常）。

＃检查异常
iforest_results [iforest_results ['Anomaly'] == 1] .head（）

现在，我们可以在图形上绘制异常以可视化。

import plotly.graph_objects as go
＃在y轴上绘制值，在x轴上绘制日期
fig = px.line(iforest_results, x=iforest_results.index, y="value", title='NYC TAXI TRIPS - UNSUPERVISED ANOMALY DETECTION', template = 'plotly_dark')
＃创建outlier_dates的列表
outlier_dates = iforest_results[iforest_results['Anomaly'] == 1].index
＃获取异常值的y值以绘制
y_values = [iforest_results.loc[i]['value'] for i in outlier_dates]
fig.add_trace(go.Scatter(x=outlier_dates, y=y_values, mode = 'markers',
                name = 'Anomaly',
                marker=dict(color='red',size=10)))

fig.show()

请注意，该模型在新年前夕的1月1日左右选择了几个异常。该模型还检测到了1月18日至1月22日之间的一些异常，

如果您在图表上搜索其他红色点附近的日期，则可能能够找到模型为何将这些点选为异常的线索（希望如此）。

希望您会喜欢PyCaret的易用性和简单性。在短短的几行代码和几分钟的实验中，我训练了一个无监督的异常检测模型，并标记了数据集以检测时间序列数据上的异常。

捞偏门？浅谈机器学习的一些小众方向

随着 DeepMind 的 AlphaGo 在 2016 年战胜了李世石,"人工智能"这个词开始进入大众的视野.从那时起,不管是大型互联网公司还是初创企业都开始大规模招聘机器学习的 ...
吴恩达《Machine Learning》精炼笔记 10：异常检测

在本文中主要讲解了机器学习中的异常检测问题,主要包含: 问题产生高斯分布算法使用场景八种无监督异常检测技术异常检测和监督学习对比特征选择异常检测Novelty Detection 异常是相 ...
机器学习专题

随着人工智能的火热,机器学习和深度学习技术再一次进入了大众的视野.python的scikit-learn模块专注于机器学习领域,提供了数据集构建,数据预处理,模型算法,效果评估等各个环节的接口,是入门 ...
EfficientDet 目标检测开源实现

EfficientDet为谷歌大脑新提出的目标检测算法(EfficientDet: Scalable and Efficient Object Detection)EfficientDet:COCO ...
机器学习在遥感影像分类中的应用

随着遥感仪器性能的不断发展,我们所能获取的遥感图像数量激增,且光谱特征维数不断增加,有必要利用机器学习对图像进行自动处理. 本文概述了机器学习的主要方法及其在遥感影像的主要应用方向,并通过应用实例说明 ...
AIops ｜一文了解日志异常检测

背景介绍日志是有关系统运行状态的描述,例如Linux的系统日志,数据库系统的日志以及分布式系统的日志等.日志是运维人员查看系统运行状态,寻找系统故障的重要数据.另一方面,日志属于非结构化数据,兼具有 ...
干货！无监督学习的公平性研究

公平性学习在近些年来受到学术界和工业界的广泛关注,其旨在于保护或隐藏某些敏感属性(例如,性别.种族.地域)并同时保持原有的学习效用.在本次讲座中,作者简单介绍了不同公平性定义,并聚焦于群组公平性,并介 ...
CVPR 2021 | 又好又快的视频异常检测，引入元学习的动态原型学习组件

Learning Normal Dynamics in Videos with Meta Prototype Network 作者:Hui lv, Chen Chen, Zhen Cui, Chuny ...
目前最强开源人脸检测算法RetinaFace

人脸检测为目标检测的特例,是商业化最早的目标检测算法,也是目前几乎各大CV方向AI公司的必争之地. WIDER FACE数据集是由香港中文大学发布的大型人脸数据集,含32,203幅图像和393,703 ...
【泡泡一分钟】无监督几何感知深度激光雷达里程计

每天一分钟,带你读遍机器人顶级会议文章标题:Unsupervised Geometry-Aware Deep LiDAR Odometry 作者:Younggun Cho, Giseop Kim a ...
FAIR最新无监督研究：视频的无监督时空表征学习

设为星标,干货直达! 机器学习算法工程师机器学习.深度学习.数据挖掘等人工智能领域的技术实战干货文章,这里都有!分享从业经验是我们的不变的准则-- 567篇原创内容公众号近期,FAIR的Kaim ...
R语言用ARIMA模型，ARIMAX模型预测冰淇淋消费时间序列数据

原文链接:http://tecdat.cn/?p=22511 标准的ARIMA(移动平均自回归模型)模型允许只根据预测变量的过去值进行预测.该模型假定一个变量的未来的值线性地取决于其过去的值,以及过去 ...
基于深度学习的无监督磁共振图像去噪方法

MRI图像是一种以不同灰度显示不同结构的解剖和病理的断面图像,广泛应用于疾病的检测.诊断以及治疗监测.然而,MRI图像的成像过程往往伴随着随机噪声,这导致了低质MRI图像的产生.MRI图像的质量不仅会 ...
R语言使用ARIMAX预测失业率经济时间序列数据

原文链接:http://tecdat.cn/?p=22521 在大数据的趋势下,我们经常需要做预测性分析来帮助我们做决定.其中一个重要的事情是根据我们过去和现在的数据来预测未来.这种方法我们通常被称为 ...
FAIR提出Barlow Twins：最简单的无监督学习方法

设为星标,干货直达! AI编辑:我是小将本文作者:王珣 https://zhuanlan.zhihu.com/p/355523266 本文已由原作者授权转载从Kaiming的MoCo和Hinton ...
R语言中ARMA，ARIMA（Box-Jenkins），SARIMA和ARIMAX模型用于预测时间序列数据

原文链接:http://tecdat.cn/?p=5919 在本文中,我将介绍ARMA,ARIMA(Box-Jenkins),SARIMA和ARIMAX模型如何用于预测时间序列数据. 使用滞后算子计算 ...
盘点视数据如无物的球员，大鸟放弃四双神迹，科比汤神拒绝刷分

对于NBA球员来说,赢得总冠军是他们的最大目标,但这主要考验球队的整体阵容和运气等方面,单靠个人能力是无法夺冠的,哪怕砍下再多分数.抢下再多篮板也无济于事,但是数据对于球员也非常重要,特别是高分.三双 ...
H-Net：基于无监督注意的立体深度估计

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...