机器学习入门01


原文链接:https://developers.google.com/machine-learning/crash-course/framing

(监督式)机器学习的定义:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

回到顶部

1- 基本术语

1.1- 标签

标签是要预测的事物,即简单线性回归中的 y 变量。

标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。

1.2- 特征

特征是输入变量,即简单线性回归中的 x 变量。

简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定:

x1,x2,...xNx1,x2,...xN

在垃圾邮件检测器示例中,特征可能包括:

  • 电子邮件文本中的字词

  • 发件人的地址

  • 发送电子邮件的时段

  • 电子邮件中包含“一种奇怪的把戏”这样的短语。

1.3- 样本

样本是指数据的特定实例:x。样本分为两类:有标签样本和无标签样本。

有标签样本同时包含特征和标签。即:labeled examples: {features, label}: (x, y)

使用有标签样本来训练模型。

在垃圾邮件检测器示例中,有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。

无标签样本包含特征,但不包含标签。即:unlabeled examples: {features, ?}: (x, ?)

在使用有标签样本训练了模型之后,使用该模型来预测无标签样本的标签。在垃圾邮件检测器示例中,无标签样本是用户尚未添加标签的新电子邮件。

1.4- 模型

模型定义了特征与标签之间的关系。

例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。

模型生命周期的两个阶段:

  • 训练表示创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

  • 推断表示将训练后的模型应用于无标签样本。也就是说,使用训练后的模型来做出有用的预测 (y')。例如,在推断期间,可以针对新的无标签样本预测 medianHouseValue

1.5- 回归与分类

回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房产的价值是多少?

  • 用户点击此广告的概率是多少?

分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:

  • 某个指定电子邮件是垃圾邮件还是非垃圾邮件?

  • 这是一张狗、猫还是仓鼠图片?

回到顶部

2- 理解

问题

1- 假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。以下哪些表述正确?

  • 主题标头中的字词适合做标签。

  • 未标记为“垃圾邮件”或“非垃圾邮件”的电子邮件是无标签样本。

  • 我们将使用无标签样本来训练模型。

  • 有些标签可能不可靠。

2- 假设一家在线鞋店希望创建一种监督式机器学习模型,以便为用户提供合乎个人需求的鞋子推荐。也就是说,该模型会向小马推荐某些鞋子,而向小美推荐另外一些鞋子。以下哪些表述正确?

  • 鞋码是一项实用特征。

  • “用户点击鞋子描述”是一项实用标签。

  • 鞋的美观程度是一项实用特征。

  • 用户喜欢的鞋子是一种实用标签。

解答

1- 假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。以下哪些表述正确?

  • 主题标头中的字词可能是优质特征,但不适合做标签。

  • 由于标签由“垃圾邮件”和“非垃圾邮件”这两个值组成,因此任何尚未标记为垃圾邮件或非垃圾邮件的电子邮件都是无标签样本。

  • 将使用有标签样本来训练模型。然后,可以对无标签样本运行训练后的模型,以推理无标签的电子邮件是垃圾邮件还是非垃圾邮件。

  • 当然。此数据集的标签可能来自将特定电子邮件标记为垃圾邮件的电子邮件用户。由于很少的用户会将每一封可疑的电子邮件都标记为垃圾邮件,因此可能很难知道某封电子邮件是否是垃圾邮件。此外,有些垃圾内容发布者或僵尸网络可能会故意提供错误标签来误导模型。

2- 假设一家在线鞋店希望创建一种监督式机器学习模型,以便为用户提供合乎个人需求的鞋子推荐。也就是说,该模型会向小马推荐某些鞋子,而向小美推荐另外一些鞋子。以下哪些表述正确?

  • 鞋码是一种可量化的标志,可能对用户是否喜欢推荐的鞋子有很大影响。例如,如果小马穿 43 码的鞋,则该模型不应该推荐 39 码的鞋。

  • 用户可能只是想要详细了解他们喜欢的鞋子。因此,用户点击次数是可观察且可量化的指标,可用来训练合适的标签。

  • 合适的特征应该是具体且可量化的。美观程度是一种过于模糊的概念,不能作为实用特征。美观程度可能是某些具体特征(例如样式和颜色)的综合表现。样式和颜色都比美观程度更适合用作特征。

  • 喜好不是可观察且可量化的指标。我们能做到最好的就是针对用户的喜好来搜索可观察的代理指标。

回到顶部

3- 关键词

分类模型 (classification model)
一种机器学习模型,用于区分两种或多种离散类别。
例如,某个自然语言处理分类模型可以确定输入的句子是法语、西班牙语还是意大利语。
请与回归模型进行比较。

回归模型 (regression model)
一种模型,能够输出连续的值(通常为浮点值)。
请与分类模型进行比较,分类模型会输出离散值,例如“黄花菜”或“虎皮百合”。

样本 (example)
数据集的一行。一个样本包含一个或多个特征,此外还可能包含一个标签。
另请参阅有标签样本和无标签样本。

特征 (feature)
在进行预测时使用的输入变量。

推断 (inference)
在机器学习中,推断通常指以下过程:通过将训练过的模型应用于无标签样本来做出预测。
在统计学中,推断是指在某些观测数据条件下拟合分布参数的过程。

标签 (label)
在监督式学习中,标签指样本的“答案”或“结果”部分。
有标签数据集中的每个样本都包含一个或多个特征以及一个标签。
例如,在房屋数据集中,特征可能包括卧室数、卫生间数以及房龄,而标签则可能是房价。
在垃圾邮件检测数据集中,特征可能包括主题行、发件人以及电子邮件本身,而标签则可能是“垃圾邮件”或“非垃圾邮件”。

模型 (model)
机器学习系统从训练数据学到的内容的表示形式。
多含义术语,可以理解为“一种TensorFlow图,用于表示预测的计算结构”或者“该TensorFlow图的特定权重和偏差,通过训练决定"。

训练 (training)
确定构成模型的理想参数的过程。

(0)

相关推荐

  • 基于功能磁共振成像数据的机器学习对精神分裂症进行分类

          功能磁共振成像能够估计人脑中的功能激活和连通性,近年来随着机器学习技术的发展,人们热衷于将这些功能模式与机器学习相结合用于识别精神病特征.尽管这些方法具有更好地理解疾病过程并完成早期诊断的 ...

  • AI过滤“垃圾” 让用户快速找到有价值的邮件

    虽然我们或多或少还是会看到垃圾邮件,但在机器学习算法的强大支持之下,大多数垃圾邮件已经被从收件箱中直接清除. 来源丨The Next Web 编译丨科技行者 目前,全球每天发出的3000亿封电子邮件中 ...

  • 对外经济贸易大学:用大数据描绘“教师画像” | 数据服务

    随着互联网和大数据技术的发展,人们可以通过网络获取到用户的海量数据,通过对海量数据进行多维度的数据分析,能够实现精准快速地分析用户的特征和行为习惯. 用户画像(User Profile)的概念应运而生 ...

  • AI系统中的偏差与偏见

    人工智能系统中存在着偏见,但是有偏见的算法系统并不是一个新现象.随着包括司法和健康等领域在内的各种组织都在采用人工智能技术,人们开始关注对基于人工智能的决策缺乏问责制和偏见.从人工智能研究人员和软件工 ...

  • 机器学习简介

    随着大数据的爆发,以及计算机算力的加强,以机器学习为代表的人工智能领域逐渐火热起来.机器学习有以下几个构成要素 1. 数据,大数据是必备条件,是机器学习的输入信息,基于大数据,才使得模型的训练效果更好 ...

  • 机器学习的策略原理:基本过程、算法框架和项目管理

    作者:cooperyjli,腾讯 CDG 数据分析师 机器学习是一种解决问题的思维方式,核心在于收集数据,应用算法和生成模型.相对于普通的数据统计和分析而言,机器学习有自己的优化过程和评估体系,是一个 ...

  • 八字基础入门01

    八字基础入门01 八字基础入门01 展开

  • 机器学习入门指南(2021版)

    大家好,我是老胡. 这是为朋友社群准备的一篇机器学习入门指南,分享了我机器学习之路看过的一些书.教程.视频,还有学习经验和建议,希望能对大家的学习有所帮助. pdf版思维导图,后台回复:指南 Pyth ...

  • 无人机航拍入门01 16个基础运镜 旅行航拍入门看这一篇就足够了

    无人机航拍入门01 16个基础运镜 旅行航拍入门看这一篇就足够了

  • 机器学习入门

    首先我想说的是,欢迎批评.从纷杂的想法中总结出一点东西,是一个及其困难也非常有意思的工作,不可避免会犯错误.发现错误并且改正,同样是一个非常有意思的过程.我觉得不确定的用紫色标记. 机器学习,mach ...

  • 机器学习入门2

    写在前面的话,我希望能够一起学习,但是事情总是计划赶不上变化,两个德国人退出了.孟萌在南德实习,李媛和张鲁津还有别的Project要忙,大家都很忙.我这一学期就两门课,所以我有足够的时间.幸好这门课还 ...

  • 机器学习入门3

    在开始讲核函数之前,我想说一个有趣的故事.最近我在粉天行九歌,里面三姬分金的故事,让我发自内心的迷上了韩非.将军姬无夜贪婪好色,觊觎王权.他的三个美姬分钱,公子韩非制定了一套博弈规则,用策略颠覆了常识 ...

  • 良心推荐:机器学习入门资料汇总及学习建议(2018版)

    本文转载自:机器学习初学者 作者           :黄海广 机器学习初学者公众号自从2018年10月开设以来,发表了不少机器学习入门的宝贵资料,受到广大机器学习爱好者的好评,本文对2018年本站发 ...

  • 机器学习入门:4大基础数学技能一览

    https://m.toutiao.com/is/Jo6h3oG/ 机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识.简单来说,机器学习涉及面很广,数学知识和算法都 ...

  • 机器学习入门之隐马尔科夫模型

    一个生活中的例子 假设你想捉摸老板每天的心情是好是坏,以此选择一个合适的汇报时机.你每天中午都会和老板一起吃食堂,而食堂午餐只能从川菜.粤菜.东北菜和淮扬菜四种中选择一种.你感觉老板每天心情和午餐吃什 ...