陈根:机器学习,助力智能生活
文/陈根
机器学习是催生了近年来人工智能发展热潮的最重要技术。作为人工智能的一个分支,机器学习也是人工智能的一种实现方法。
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
早在1950年,图灵在关于图灵测试的文章中就已提及机器学习的概念。
1952年,IBM的亚瑟·塞缪尔(Arthur Samuel,被誉为“机器学习之父”)设计了一款可以学习的西洋跳棋程序。它能够通过观察棋子的走位来构建新的模型,用来提高自己的下棋技巧。塞缪尔和这个程序进行多场对弈后发现,随着时间的推移,程序的棋艺变得越来越好。
塞缪尔用这个程序推翻了以往“机器无法超越人类,不能像人一样写代码和学习”这一传统认识。并在 1956年正式提出了“机器学习”这一概念。亚瑟·塞缪尔认为:“机器学习是在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域”。
而有着“全球机器学习教父”之称的汤姆·米切尔(Tom Mitchell)则将机器学习定义为:对于某类任务T和性能度量P,如果计算机程序在 T上以P衡量的性能随着经验E 而自我完善,就称这个计算机程序从经验E学习。
如今,随着时间的变迁,机器学习的内涵和外延在不断的变化。普遍认为,机器学习的处理系统和算法是主要通过找出数据里隐藏的模式进而做出预测的识别模式,是人工智能的一个重要子领域。同时,机器学习也是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习从样本数据中学习得到知识和规律,然后用于实际的推断和决策。其和普通程序的一个显著区别就是需要样本数据,是一种数据驱动的方法。
机器学习与人类基于经验的成长有异曲同工之妙。我们知道,人类绝大部分智能获得也是需要通过后天的训练与学习,而不是天生具有。在没有认知能力的婴幼儿时期,在成长的过程中婴孩从外界环境不断得到信息,对大脑形成刺激,从而建立起认知的能力。
要给孩子建立“苹果”、“香蕉”这样的抽象概念,需要反复地提及这样的词汇并将实物与之对应。经过长期训练之后,孩子的大脑中才能够形成“苹果”、“香蕉”这些抽象概念和知识,并将这些概念运用于眼睛看到的世界。
人类在成长、生活过程中积累了很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。
机器学习就采用了类似的思路。比如,要让人工智能程序具有识别图像的能力,首先就要收集大量的样本图像,并标明这些图像的类别,是香蕉、苹果,或者其他物体。然后送给算法进行学习(训练),训练完成之后得到一个模型,这个模型是从这些样本中总结归纳得到的知识。随后,就可以用这个模型来对新的图像进行识别。
机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。由此可见,机器学习的思想并不复杂,其原理仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论。