Python用T-SNE非线性降维技术拟合和可视化高维数据iris鸢尾花、MNIST 数据
原文链接:http://tecdat.cn/?p=24002
T-distributed Stochastic Neighbor Embedding (T-SNE) 是一种可视化高维数据的工具。T-SNE 基于随机邻域嵌入,是一种非线性降维技术,用于在二维或三维空间中可视化数据。
Python API 提供 T-SNE 方法可视化数据。在本教程中,我们将简要了解如何在 Python 中使用 TSNE 拟合和可视化数据。教程涵盖:
鸢尾花数据集TSNE拟合与可视化
MNIST 数据集 TSNE 拟合和可视化
我们将从加载所需的库和函数开始。
import seaborn as sns
import pandas as pd
鸢尾花数据集TSNE拟合与可视化
加载 Iris 数据集后,我们将获取数据集的数据和标签部分。
x = iris.data
y = iris.target
然后,我们将使用 TSNE 类定义模型,这里的 n_components 参数定义了目标维度的数量。'verbose=1' 显示日志数据,因此我们可以检查它。
TSNE( verbose=1)
接下来,我们将在图中可视化结果。我们将在数据框中收集输出组件数据,然后使用“seaborn”库的 scatterplot() 绘制数据。在散点图的调色板中,我们设置 3,因为标签数据中有 3 种类型的类别。
df = p.Dtame()
df\["\] = y
df\["cm"\] =z\[:,0\]
df\[cop"\] = z\[,\]
plot(hue=dfytlst()
patte=ns.cor_ptt("hls", 3),
dat=df)
MNIST 数据集 TSNE 拟合和可视化
接下来,我们将把同样的方法应用于更大的数据集。MNIST手写数字数据集非常合适,我们可以使用Keras API的MNIST数据。我们只提取数据集的训练部分,因为这里用TSNE来测试数据就足够了。TSNE需要太多的时间来处理,因此,我将只使用3000行。