机器学习入门2

写在前面的话,我希望能够一起学习,但是事情总是计划赶不上变化,两个德国人退出了。孟萌在南德实习,李媛和张鲁津还有别的Project要忙,大家都很忙。我这一学期就两门课,所以我有足够的时间。幸好这门课还是蛮好玩的,内容丰富多彩。也许我选这门课还有一个非常任性的原因,我觉得天底下没有我征服不了的东西,除非我不想,也许就是我的个人性格吧,Das Schicksal, my destiny。

之前讲了线性分类器和贝叶斯分类器,以及相应的判别式,也就是决策函数, 极大似然估计。现在时间应该进入了80年代后期了,主成分分析,聚类,EM 期望最大,核函数,Modelslection,决策树,强化学习,以及神经网络。

我找到一句话, maximum a posteriori estimates can be regarded as regularization of the maximum likelihood estimate。

极大似然估计,就是对似然函数求导,regularization 正则化就是在最小二乘估计的基础上引入惩罚参数, penalty,增强鲁棒性,robust,说白了就是不因为一个突然出现的不符合分类条件的点而导致某处参数骤变。用ppt里面的话说,对参数引入限制使得结果更加稳定。

PCA问题通过最大化signal或者最小化noise,会发现其实本质上是一回事,再通过构造拉格朗日函数,转换成了求特征值的问题。编程的时候,会直接用矩阵的奇异值分解来求主成分,其实就是特征值,也可以按照上面的给的方法x乘以x的转置得到 scatter matrix,求这个matrix的特征值。特征值和特征向量在线性代数里面有着及其重要的意义,这个意义使得我们可以通过一次次迭代,同样可以求到特征值。

聚类,这应该是我觉得最好玩的了。说实话,它其实和EM一样,expectation maximum。先求每个类质心,也就是期望,然后根据质心进行全局的优化,也就是求最大值,这里最大最小并没绝对的区别,都是极值问题。然后就是更新质心,进行迭代。可以这样做的一个根本原因就是密度分布的不均匀。

上图是也是一个EM过程,两个简单的二项式分布,各自权重不一样,但各自正反的概率一大一小,所以初始的分布是一左一右高度一样的高斯分布,验证了二项分布的极限是高斯分布. 随着不断进行EM, 理论值逐渐接近实际值, 误差在越来越小.

对于Fischer Discriminant 我觉得上图并没有很好的说明问题,公式倒是比图更容易看懂. 于是我又翻回了,我的Mustererkennung, 找到下面这张图:

简单明了,一目了然,类间方差除以类内方差之和,数值越大说明分类分的越好。

这里的误差用均方差表示MSE,可以证明等于偏差的平方加方差。我特别讨厌这些乱七八糟的中文名字,我更喜欢看公式。方差比较的是估计值和均值,均方差比较的是估计值和真实值,所以两者还缺一个东西,那就是偏差。当采用均值作为估计值,偏差为零。

最后就是决策树和随机森林了, random forest。没啥好说的,跳过。名字倒是起的蛮有意思的。重要的原理,可能就是能够很好的避免同质化,不人云亦云,这样错误就不会被放大。

最后就是我神秘的高斯过程了,有趣在于,distribution不仅仅关于random varible,而是 function 了,这就无形中基于函数,又构造了一个函数关系。问题变得复杂而有趣。

以上是历次作业编程题目生成的图片,看起来还是蛮有意思的。

最后想说一下,我对人工智能的理解。我特别欣赏一种看法,所谓智能,是在不知情人看来无法理解的东西被其称为智能。这可以让我们对待人工智能更为理性一些,不要抱有太高期望,像什么上传下载意识啊,性伴侣啊,用刘慈欣的话讲,这会从根本上改变人类文明的进程。人工智能模仿人类的智能,比如感知和运动,还有推理。我觉得在开始幻想之前,每个人都应该先问问自己,你内心的欢喜是什么。

后记: 有一种忧伤叫做不能自已,失去的东西已经失去,不可挽回的就是不可挽回。唯一能做的就是把握现在。

(0)

相关推荐

  • 图像编辑新作:连续色彩迁移

    作者来自日本福井大学和澳大利亚肯迪大学. 论文标题:Continuous Color Transfer论文链接:https://arxiv.org/abs/2008.13626 引言:图像编辑研究方向 ...

  • 《素数之恋》:拨开黎曼猜想的面纱,领略史诗般数学之谜的魅力

    我想,我的高中数学老师--高志强是无论如何都想不到,他教过的学生---我,一位高考数学27分的学渣这辈子应该就不太会看数学相关的书籍了. 殊不知,现在为了写书评,啥书都看!花了一个多星期看完了这本书- ...

  • 漫谈图神经网络 (三)

    >> 图读出操作(ReadOut) 图读出操作,顾名思义,就是用来生成图表示的.它的别名有图粗化(翻译捉急,Graph Coarsening)/图池化(Graph Pooling).对于这 ...

  • 机器学习入门指南(2021版)

    大家好,我是老胡. 这是为朋友社群准备的一篇机器学习入门指南,分享了我机器学习之路看过的一些书.教程.视频,还有学习经验和建议,希望能对大家的学习有所帮助. pdf版思维导图,后台回复:指南 Pyth ...

  • 机器学习入门

    首先我想说的是,欢迎批评.从纷杂的想法中总结出一点东西,是一个及其困难也非常有意思的工作,不可避免会犯错误.发现错误并且改正,同样是一个非常有意思的过程.我觉得不确定的用紫色标记. 机器学习,mach ...

  • 机器学习入门3

    在开始讲核函数之前,我想说一个有趣的故事.最近我在粉天行九歌,里面三姬分金的故事,让我发自内心的迷上了韩非.将军姬无夜贪婪好色,觊觎王权.他的三个美姬分钱,公子韩非制定了一套博弈规则,用策略颠覆了常识 ...

  • 良心推荐:机器学习入门资料汇总及学习建议(2018版)

    本文转载自:机器学习初学者 作者           :黄海广 机器学习初学者公众号自从2018年10月开设以来,发表了不少机器学习入门的宝贵资料,受到广大机器学习爱好者的好评,本文对2018年本站发 ...

  • 机器学习入门:4大基础数学技能一览

    https://m.toutiao.com/is/Jo6h3oG/ 机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识.简单来说,机器学习涉及面很广,数学知识和算法都 ...

  • 机器学习入门之隐马尔科夫模型

    一个生活中的例子 假设你想捉摸老板每天的心情是好是坏,以此选择一个合适的汇报时机.你每天中午都会和老板一起吃食堂,而食堂午餐只能从川菜.粤菜.东北菜和淮扬菜四种中选择一种.你感觉老板每天心情和午餐吃什 ...

  • 机器学习入门02

    目录 1- 线性回归 2- 训练与损失 平方损失(L2 损失) 3- 理解 问题 解答 4- 关键词 原文链接:https://developers.google.com/machine-learni ...

  • 机器学习入门01

    原文链接:https://developers.google.com/machine-learning/crash-course/framing (监督式)机器学习的定义:机器学习系统通过学习如何组合 ...

  • 机器学习入门实战---波士顿房价预测

    波士顿房价预测 波士顿房价数据集介绍 波士顿房价数据说明:此数据源于美国某经济学杂志上,分析研究波士顿房价( Boston HousePrice)的数据集.数据集中的每一行数据都是对波士顿周边或城镇房 ...