机器学习和计算机视觉的20大图像数据集
全文共1709字,预计学习时长5分钟
图源:unsplash
计算机视觉使得计算机能够理解图像和视频的内容,其目标是能够如同人体视觉系统一样,自动完成任务。计算机视觉任务包括图像采集、处理和分析。图像数据以不同的形式呈现,如视频序列、多机位成像,或是来自医学扫描仪的多维数据。本文就将介绍一些适用于机器学习训练的数据集。
Labelme:由麻省理工学院计算机科学和人工智能实验室(CSAIL)共同创建的大型数据集,包含187240张图像、62197张带注释的图像和658992个带标签的对象。
ImageNet:新算法的实际图像数据集,根据WordNet层次结构进行组织,层次结构中的每个节点都由成百上千的图像描述。
LSUN:场景理解,附带许多辅助任务(房间布局估计、显著性预测等)。
MS COCO:COCO是一个大规模的对象检测、分割和说明的数据集,包含200000张以上带标签的图像。可用于对象分割、上下文中的识别等等。
哥伦比亚大学图像库:COIL100数据集包含100个不同的对象,以360°全角度成像。
Visual Genome:是一个数据集兼知识库,旨在将结构化图像概念与语言联系起来。该数据集是包含108077张图像说明的详细视觉知识库。
Lego Bricks:包含大约12700张16种不同乐高积木的图片,按文件夹分类,用Blender进行计算机渲染。
谷歌开放图像:在知识共享(Creative Commons)的支持下,900万张图像的URL“已经用跨越6000多个类别的标签进行了注释”。
开放图像数据集中的带注释的图像。左:Kevin Krejci的“幽灵拱门”。右:J B.的一些银器。两张图像均在CC BY 2.0的许可下使用。
Youtube-8M:由数百万个YouTube视频ID组成的大规模标签数据集,包含超过3800个视觉实体的注释。
Labelled Faces in the Wild:包含13000张带标签的人脸图像,旨在开发人脸识别相关应用。
斯坦福犬类数据集:包含20580张图像和120个犬类品种,每个类别大概150张图像。
Places:以场景为主的数据库,包含205个场景类别和250万个带有类别标签的图像。
CelebFaces:拥有超过200000张名人图像的人脸数据集,每张都有40个属性注释。
CelebFaces数据集中的示例图像
Flowers:在英国常见的花卉图像数据集,由102个不同类别组成。每个花卉类别由40到258张不同姿态和光线变化的图像组成。
Plant Image Analysis:跨越100多万张植物图像的数据集的集合。可以从11种植物中选择。
Home Objects:包含家庭中随机对象的数据集,主要来自厨房、浴室和客厅,分为训练数据集和测试数据集。
CIFAR-10:由60000张32×32彩色图像组成的大型图像数据集,分为10类。数据集分为五个训练批次和一个测试批次,每个批次包含10000张图像。
CompCars:包含163款汽车品牌,共有1716种车型,每种车型都标有五个属性,包括最大速度、排量、车门数量、座椅数量和汽车类型。
室内场景识别数据集:这是一个非常独特的数据集。因为大多数场景识别模型在室外发挥更好,所以该数据集很有用。包含67个室内类别,共15620张图片。
VisualQA:VQA数据集包含265,016张图像的开放性问题。这些问题需要对视觉和语言的理解。对于每张图像,至少有3个问题,每个问题至少有10个答案。