《数学之美》吴军
..
浪潮之巅、文明之光、硅谷之谜、大学之路、见识作者吴军博士作品,源自谷歌黑板报,根植谷歌方法论,新增区块链、量子通信、人工智能知识,文津图书奖获奖书
吴军 著
编辑推荐
适读人群 :IT行业从业人员,对计算机算法感兴趣的学生,有数学基础的非IT人员
这是一本备受推崇的经典科普作品,被众多机构推荐为数学学科的敲门砖,是信息领域大学生的必读好书。
数学既是对于自然界事实的总结和归纳,又是抽象思考的结果。在《数学之美》里,吴军博士集中阐述了他对数学和信息处理这些专业学科的理解,把数学在IT领域,特别是语音识别、自然语言处理和信息搜索等方面的美丽之处予以了精彩表达,这些都是智能时代的热门技术话题。
本书还用了大量篇幅介绍各个领域的典故,是文科生也可以看懂的科普读物。成为一个领域的大师有其偶然性,但更有其必然性。其必然性就是大师们的思维方法。通过本书,可以了解他们的平凡与卓越,理解他们取得成功的原因,感受那些真正懂得数学之美的人们所拥有的美好人生。
本书先后荣获国家图书馆第八届文津图书奖、第五届中华优秀出版物奖图书提名奖、入选“2014年向全国青少年推荐百种优秀图书书目”、第一版曾荣获2012-2013年度全行业畅销书,《数学之美》多次被推选为必读书。《数学之美》给广大读者,尤其是在校读大学甚至读高中的年轻人带去了美的数学启示,作者更希望中国做工程的年轻人,能够从《数学之美》中体会到在信息技术行业做事情的正确方法,以便在职业和生活上都获得成功。
第三版增加了三章新内容,分别介绍当今非常热门的三个主题:区块链的数学基础,量子通信的原理,以及人工智能的数学极限。
内容简介
八年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。
在纸本书的创作中,作者几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。
本书第一版荣获国家图书馆第八届文津图书奖。第二版增加了针对大数据和机器学习的内容。第三版增加了三章新内容,分别介绍当今非常热门的三个主题:区块链的数学基础,量子通信的原理,以及人工智能的数学极限。
作者简介
吴军,学者,投资人,人工智能、语音识别和互联网搜索专家。毕业于清华大学和美国约翰·霍普金斯大学,现任丰元资本创始合伙人、上海交通大学客座教授、约翰·霍普金斯大学工学院董事等职。
吴军博士曾作为资深研究员和副总裁分别任职于Google公司和腾讯公司。在Google公司,他和同事一同开创了搜索反作弊研究领域,成立了中、日、韩文产品部门,设计了Google中、日、韩文搜索算法,领导了Google自然语言处理和自动问答等研究型项目,拥有近20项美国发明专利。在腾讯公司,他负责了搜索、搜索广告和街景地图等项目。作为风险投资人,他成功地投资了150家硅谷和中国的高科技企业。吴军博士对科技产业有深入的研究,是当今硅谷地区解读IT产业的专家。
吴军博士著有《数学之美》《大学之路》《文明之光》《智能时代》《见识》《态度》和《全球科技通史》等多部畅销书,并多次获得包括文津奖、中国好书奖、中华优秀出版物在内的图书大奖。
精彩书评
《数学之美》一书让我们能够体会为什么数学可以和音乐、美术一样,具有美感。康德认为数学式之所以美,在于它的合理性——合理是大脑天生的逻辑演绎系统,人人皆有。因此,当我们谈论数学之美时,不是比喻,不是人为造作,而是真的人性之感受。
王小川/搜狗创始人
数学方面我是外行,所以也挺有兴趣读点这方面的科普书。在朋友推荐下读了吴军博士的《数学之美》第二版,觉得饶有趣味,也受益匪浅。现在这本书又出了第三版,里面第31章是专门写区块链的,结合原有的第17章专讲密码,这样书中就有两章是关于区块链的了。迄今在中文世界所见关于密码和区块链的科普著作中,我觉得《数学之美》属于上乘,也许是好的。从整体上说,这本书既通俗易懂,又有一定深度,给人启发,特别适合从事信息产业的人士阅读。
毛德操/浙大网新科技首席科学家,《区块链技术》作者
本书的章节名称,有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等,似乎太过专业,实际上高中和大学低年级的同学们都能看得懂,当然本书因此也可以称得上是“高级科普”。总之,本书是在介绍信息技术背后的数学原理,以及这些技术和原理背后的科学家的故事及他们从事科学研究的方式方法。故事生动翔实而富有教益,是一部优秀的科学方法论的启蒙读物。
王渝生/中国科技馆原馆长
目录
I 第二版序言
III 第一版序言
VI 第三版前言
第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是终还是能走到一起。
1 信息
2 文字和数字
3 文字和语言背后的数学
第2章 自然语言处理——从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。
1 机器智能
2 从规则到统计
第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用于机器翻译、语音识别、印刷体,或手写体识别、拼写纠错、汉字输入和文献查询。
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
第4章 谈谈分词
中文分词是中文信息处理的基础,它同样走过了一段弯路,目前依靠统计语言模型已经基本解决了这个问题。
1 中文分词方法的演变
2 延伸阅读:如何衡量分词的结果
第5章 隐马尔可夫模型
隐马尔可夫模型初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。同时,隐马尔可夫模型也是机器学习的主要工具之一。
1 通信模型
2 隐马尔可夫模型
3 延伸阅读:隐马尔可夫模型的训练
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度量,也是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。
1 信息熵
2 信息的作用
3 互信息
4 延伸阅读:相对熵
第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功地将数学原理应用于自然语言处理领域中,他的一生富于传奇色彩。
1 早年生活
2 从水门事件到莫妮卡·莱温斯基
3 一位老人的奇迹
第8章 简单之美——布尔代数和搜索引擎
布尔代数虽然非常简单,却是计算机科学的基础,它不仅把逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了数字化时代。
1 布尔代数
2 索引
第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动地将所有的网页下载到服务器上,这个程序称为网络爬虫,它的编写是基于离散数学中图论的原理。
1 图论
2 网络爬虫
3 延伸阅读:图论的两点补充说明
第10章 PageRank——Google的民主表决式网页排名技术
网页排名技术PageRank是早期Google的杀手锏,它的出现使得网页搜索的质量上了一个大的台阶。它背后的原理是图论和线性代数的矩阵运算。
1 PageRank算法的原理
2 延伸阅读:PageRank的计算方法
第11章 如何确定网页和查询的相关性
确定网页和查询的相关性是网页搜索的根本问题,其中确定查询中每个关键词的重要性有多高是关键。TF-IDF是目前通用的关键词重要性的度量,其背后的原理是信息论。
1 搜索关键词权重的科学度量TF-IDF
2 延伸阅读:TF-IDF 的信息论依据
第12章 有限状态机和动态规划——地图与本地搜索的核心技术
地图与本地搜索中要用到有限状态机和动态规划技术。这两项技术是机器智能和机器学习的工具,它们的应用非常广泛,还包括语音识别、拼写和语法纠错、拼音输入法、工业控制和生物的序列分析等。
1 地址分析和有限状态机
2 全球导航和动态规划
3 延伸阅读:有限状态传感器
第13章 Google AK-47的设计者——阿米特·辛格博士
在所有轻武器中有名的是AK-47冲锋枪,因为它从不卡壳,不易损坏,可在任何环境下使用,可靠性好,s伤力大并且操作简单。Google的产品就是按照上述原则设计的。
第14章 余弦定理和新闻的分类
计算机虽然读不懂新闻,却可以准确地对新闻进行分类。其数学工具是看似毫不相干的余弦定理。
1 新闻的特征向量
2 向量距离的度量
3 延伸阅读:计算向量余弦的技巧
第15章 矩阵运算和文本处理中的两个分类问题
无论是词汇的聚类还是文本的分类,都可以通过线性代数中矩阵的奇异值分解来进行。这样一来,自然语言处理的问题就变成了一个数学问题。
1 文本和词汇的矩阵
2 延伸阅读:奇异值分解的方法和应用场景
第16章 信息指纹及其应用
世间万物都有一个唯一标识的特征,信息也是如此。每一条信息都有它特定的指纹,通过这个指纹可以区别不同的信息。
1 信息指纹
2 信息指纹的用途
3 延伸阅读:信息指纹的重复性和相似哈希
第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理
密码学的根本是信息论和数学。没有信息论指导的密码是非常容易被破解的。只有在信息论被广泛应用于密码学后,密码才真正变得安全。
1 密码学的自发时代
2 信息论时代的密码学
第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题
闪光的不一定是金子,搜索引擎中排名靠前的网页也未必是有用的网页。消除这些作弊网页的原理和通信中过滤噪声的原理相同。这说明信息处理和通信的很多原理是相通的。
1 搜索引擎的反作弊
2 搜索结果的权威性
第19章 谈谈数学模型的重要性
正确的数学模型在科学和工程中至关重要,而发现正确模型的途径常常是曲折的。正确的模型在形式上通常是简单的。
第20章 不要把鸡蛋放到一个篮子里——谈谈z大熵模型
z大熵模型是一个完美的数学模型。它可以将各种信息整合到一个统一的模型中,在信息处理和机器学习中有着广泛的应用。它在形式上非常简单、优美,而在实现时需要有精深的数学基础和高超的技巧。
1 z大熵原理和z大熵模型
2 延伸阅读:z大熵模型的训练
第21章 拼音输入法的数学原理
汉字的输入过程本身就是人和计算机之间的通信。好的输入法会自觉或不自觉地遵循通信的数学模型。当然要做出有效的输入法,应当自觉使用信息论做指导。
1 输入法与编码
2 输入一个汉字需要敲多少个键——谈谈香农第一定理
3 拼音转汉字的算法
4 延伸阅读:个性化的语言模型
第22章 自然语言处理的教父马库斯和他的优秀弟子们
将自然语言处理从基于规则的研究方法转到基于统计的研究方法上,宾夕法尼亚大学的教授米奇·马库斯功不可没。他创立了今天在学术界广泛使用的LCD语料库,同时培养了一大批精英人物。
1 教父马库斯
2 从宾夕法尼亚大学走出的精英们
第23章 布隆过滤器
日常生活中,经常要判断一个元素是否在一个集合中。布隆过滤器是计算机工程中解决这个问题的数学
工具。
1 布隆过滤器的原理
2 延伸阅读:布隆过滤器的误识别问题
第24章 马尔可夫链的扩展——贝叶斯网络
贝叶斯网络是一个加权的有向图,是马尔可夫链的扩展。而从认识论的层面看:贝叶斯网络克服了马尔可夫链那种机械的线性约束,它可以把任何有关联的事件统一到它的框架下面。它在生物统计、图像处理、决策支持系统和博弈论中都有广泛的使用。
1 贝叶斯网络
2 贝叶斯网络在词分类中的应用
3 延伸阅读:贝叶斯网络的训练
第25章 条件随机场、文法分析及其他
条件随机场是计算联合概率分布的有效模型,而句子的文法分析似乎是英文课上英语老师教的东西,这两者有什么联系呢?
1 文法分析——计算机算法的演变
2 条件随机场
3 条件随机场在其他领域的应用
第26章 维特比和他的维特比算法
维特比算法是现代数字通信中使用频繁的算法,也是很多自然语言处理采用的解码算法。可以毫不夸张地
讲,维特比是对我们今天的生活影响力z大的科学家之一,因为基于CDMA的3G移动通信标准主要就是他和厄文·雅各布创办的高通公司制定的。
1 维特比算法
2 CDMA技术——3G移动通信的基础
第27章 上帝的算法——期望z大化算法
只要有一些训练数据,再定义一个z大化函数,采用EM算法,利用计算机经过若干次迭代,就可以得到所需要的模型。这实在是太美妙了,这也许是造物主刻意安排的,所以我把它称作上帝的算法。
1 文本的自收敛分类
2 延伸阅读:期望z大化和收敛的必然性
第28章 逻辑回归和搜索广告
逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,它不仅在搜索广告中起着重要的作用,而且被广泛应用于信息处理和生物统计中。
1 搜索广告的发展
2 逻辑回归模型
第29章 各个击破算法和Google云计算的基础
Google颇为神秘的云计算中重要的MapReduce工具,其原理就是计算机算法中常用的“各个击破”算法,它的原理原来这么简单——将复杂的大问题分解成很多小问题分别求解,然后再把小问题的解合并成原始问题的解。由此可见,在生活中大量用到的、真正有用的方法常常都是简单朴实的。
1 分治算法的原理
2 从分治算法到MapReduce
第30章 Google大脑和人工神经网络
Google大脑并不是一个什么都能思考的大脑,而是一个很能计算的人工神经网络。因此,与其说Google大脑很聪明,不如说它很能算。不过,换个角度来说,随着计算能力的不断提高,计算量大但简单的数学方法有时能够解决很复杂的问题。
1 人工神经网络
2 训练人工神经网络
3 人工神经网络与贝叶斯网络的关系
4 延伸阅读:Google大脑
第31章 区块链的数学基础——椭圆曲线加密原理
希尔伯特讲,“我们直到能够把一门自然科学的数学内核剥出并完全地揭示出来,才能够掌握它。”以比特币为代表的加密货币的基础是数学的算法,只有搞清楚加密货币的数学内核,我们才能了解它的本质。
1 不对称、不透明之美
2 椭圆曲线加密的原理
第32章 大数据的威力——谈谈数据的重要性
如果说在过去的40年里,主导全球IT产业发展的是摩尔定律,那么在今后的20年里,主导IT行业继续发展的动力则将来自于数据。
1 数据的重要性
2 数据的统计和信息技术
3 为什么需要大数据
第33章 随机性带来的好处——量子密钥分发的数学原理
人们总是喜欢确定性而不喜欢随机性。但是从对确定性规律的把握上升到对随机性规律的把握,恰恰是近代数学进步的标志。量子通信就是建立在把握了有关随机性规律的基础之上。
1 用(激光)量子的偏振方向传递信息
2 利用随机性保证信息安全
第34章 数学的极限——希尔伯特第十问题和机器智能的极限
世界上只有一小部分问题是数学问题,而数学问题中又只有极小的一部分问题有解。在这些问题中,今天已经找到相应算法的少之又少。因此,数学不是万能的,我们需要了解数学的边界在哪里。
1 图灵划定计算机可计算问题的边界
2 希尔伯特划定有解数学问题的边界
3 延伸阅读:关于图灵机
附录 计算复杂度
第三版后记
索引
精彩书摘
第三版后记
很多朋友问我,为什么会想起来写“数学之美”系列博客,并且要出书?这要回到2006年。
那一年,Google刚进入中国市场,当时负责中国市场产品形象的吴丹丹女士开设了Google中国(即谷歌)官方博客——谷歌黑板报。吴丹丹女士邀请我写一些博客介绍Google的产品。作为一名计算机科学家,以及当时谷歌绝大部分与中文相关产品的发起人,我觉得直接介绍产品有王婆卖瓜自卖自夸之嫌,于是我和吴丹丹商量,写了一系列短文,介绍Google产品背后的基本技术,尤其是数学原理。我相信,当读者特别是工程师们了解了Google产品背后的技术时,他们会更加信赖我们的产品。于是,我根据自己当时在Google的工作经历和之前在约翰.霍普金斯大学的研究经历,写了几篇主题为“数学之美”的博客。
将数学的东西说清楚,让外行都能读懂,并非易事。我自认为是一个擅长把技术原理深入浅出地讲明白的人,但是,当我第一次将所写的几篇博客送给吴丹丹以及Google其他非工程专业的同事阅读时,他们还是表示理解起来十分费劲。为此,后来我下了很多功夫,设法将每一篇博客都写得浅显易懂,并且为了方便大部分读者阅读,省略了相当多的技术细节。后来证明,在博客中这样处理是正确的。
写博客之初,我并没有一个完整的写作计划,加上在Google的工作也很忙,因此有空就抽时间写一点,写到哪儿算哪儿。不成想刊登了几篇之后,这些博客受到IT行业广大从业人员和大学生的关注和喜爱,在互联网上被转载了上万次,读者有上百万之众。这里要特别感谢当时著名博主洪波先生(Keso)的转载。于是,在大家的鼓励下,我便陆陆续续写了20多篇。后来因为工作更加繁忙,我的博客写作一度中断过一段时间,但令我感动的是,在这期间始终有读者持续关注这个系列,时不时来询问我能否将这个系列写完,有无可能出书。恰巧2010年初我因为换工作有几周休假,于是利用那段时间完成了这个系列的后几篇,并且开始把它修订成书。
“数学之美”从博客变成书的过程,首先要感谢周筠老师。2008年,我在创作另一个系列博客“浪潮之巅”时,周筠老师专门和我通了国际长途,商量出书的事情,我当时已经把《浪潮之巅》的出版权签约给了某家出版社,本想婉拒周筠老师,可是后来周老师听说我要从美国到北京出差,专程从武汉赶到Google在北京的办公室,和我聊了《数学之美》的出书计划,这让我很感动。我原以为这种偏数学、偏技术的内容不会有太多读者,有点犹豫,但是周老师非常有信心,于是我们就签了出版协议。之后又因为某种机缘,我从那家出版社拿回了《浪潮之巅》的出版权,也交给了周筠老师出版,这当然是题外话了。
促使我将“数学之美”系列博客变成书的另一个原因,就是我发现无论是在美国还是在中国,大部分软件工程师面对一个未知领域时,都是习惯从直观感觉出发,喜欢用“凑”的方法来解决问题,在中国尤其如此。这样的做法,说得不好听一点儿,就是山寨。我刚到Google时,发现Google早期的一些算法(比如拼写纠错)根本没有系统的模型和理论基础,就是用词组或词的二元组凑出来的。这些方法也算是聊胜于无,但是几乎没有完善和提高的可能,而且使得程序的逻辑非常混乱。
后来,随着公司的成长和实力的壮大,Google开始从全球好的大学招揽理论基础优异的工程师,使得工程的正确性得到了很好的保证。在Google上市后的一段时间里,工程师们几乎重写了所有项目的程序,凑合的东西基本上看不到了,产品质量有了巨大的飞跃。记得有一年,我指导了三四个美国名校毕业的研究生,用隐马尔可夫模型的框架把Google的拼写纠错模型和其他一些语言的拼写纠错统一起来,从此Google在这个方面将竞争对手远远地甩在了后面。
然而,在其他公司,包括美国一些还挂着高科技头衔的二流IT公司里,山寨情况依然很普遍。在国内,创业小公司做事情重量不重质,倒也无可厚非;但是,上了市、有了钱,甚至利润已经成为世界上数得上的公司,做事情依然如此就不免让人觉得太过随意、太缺乏追求了。很多公司都把精力和财力花在了怎样让产品显得花哨,或者如何购买流量上面,却很少愿意花力气修炼内功,没有把资源用在刀刃上。因此,我觉得有必要对“数学之美”进行系统化的整理,增加更多涉及专业技术的内容,以便让IT公司的工程主管们能够带领部属提高工程水平,逐渐远离山寨,让这些公司能够尽快成长为世界一流的IT公司。当然,我更希望中国做工程的年轻人,能够体会到在信息技术行业做事情的正确方法,以便在职业和生活上都获得成功。
当我真的开始写书的时候,就发现写书比写博客要难得多。一本好书需要结构系统,文字严谨。为了达到出书的要求,我几乎重写了所有的内容,并且把以前写博客时省略掉的技术细节,以延伸阅读的方式补了回来。为了便于非IT读者阅读,我又为每个专题都增加了背景介绍。这样,非IT读者完全可以把关注的重点放在每一个专题的前半部分,而专业人士则可以一口气读完延伸阅读。
《数学之美》出版之后,获得了很大的成功,2012年第一版上市至今,已累计销售70余万册,还被翻译成英文和韩文正式出版。于是,很多读者希望我能谈谈成功写作一本科普书的经验。
写一本好书首先要选好素材,然后才是写作本身。
在选材方面,我多少有些工作上的便利,因为在长达20多年的时间里,我一直在语言信息处理、互联网技术、数据挖掘和机器学习等领域做研究和产品开发,因此有不少一手的经验。不过,这些领域都博大精深且发展迅速,而我所做的研究和开发工作也只涵盖了其中很小的一部分。因此,我着重介绍了我涉足过的比较有资格、有信心写的主题。我希望这本书能起到抛砖引玉的作用,让更多的专家愿意将自己的工作心得分享出来,供大家学习参考。对于大众读者,我则希望这本书可以通过一些实例,帮助大家体悟数学之道,领悟数学之美,以便今后解决实际问题时能够举一反三。
在写作方面,对我帮助z大的其实是两本书和一个节目。我在初中时读了《从一到无穷大》(One Two Three … Infinity),这是一本介绍宇宙的科普读物。作者乔治.伽莫夫是美籍俄裔著名物理学家,他花了很多时间创作科普读物,影响了一代又一代人。第二本书是英国著名物理学家霍金的《时间简史》(A Brief History Of Time),霍金用简单的语言把深奥的宇宙学原理讲出来,让这部科普读物成为全球畅销书。影响我的一个节目是美国著名演员摩根.弗里曼担任旁白和主持人的《穿越虫洞》(Through the Wormhole)。我的写作大多是在飞机上完成的,写作累了便看看电视节目,一次碰巧找到《穿越虫洞》,一个把当今前沿的物理学知识做得浅显易懂的节目。节目中有包括很多诺贝尔奖获奖者在内的一流物理学家和数学家介绍他们的工作,这些人有一个共同的本领,就是能用很简单的比喻将所在领域内深奥的道理说清楚,让大众容易理解。我想这可能正是他们成为世界顶级科学家的原因,他们一方面对自己的领域非常精通,同时他们又能用大白话把道理讲得明明白白。世界上好的学者总是有办法深入浅出地把大道理讲给外行听,而不是故弄玄虚地把简单问题复杂化。因此,在写作《数学之美》时,我一直以伽莫夫、霍金等科学家为榜样,力图将数学之美展现给所有普通读者,而不只是有相关专业背景的读者。为了方便读者利用零碎的闲暇时间阅读,我在写作时尽量让各章相对独立、自成一体,这样读起来不会有多大压力,毕竟,让大部分读者从头到尾连续读一本以数学知识为主的书,总是有些困难的。
2012年,在很多朋友的关心和帮助下,《数学之美》终于在人民邮电出版社出版了,并且先后荣获g家图书馆第八届文津图书奖、第五届中华优秀出版物奖图书提名奖。尤为可喜的是,很多年轻读者,包括中学生,在阅读完这本书后对数学产生了浓厚的兴趣,并尝试将学到的数学知识自觉地应用到日常学习或工作中。2014年,我针对当时逐渐开始热门的大数据和机器学习等领域对《数学之美》做了内容补充,推出了第二版。今年,我根据人工智能技术的发展,对《数学之美》进行了又一次升级改版,增加了与区块链、量子通信及人工智能相关的内容,部分原有章节也根据技术的新发展动态做了必要的补充和修订。
在《数学之美》第三版即将出版之际,我要感谢很多人给予我的教育、帮助和鼓励。首先,我要感谢那些把我带到数学王国和信息处理领域的人,包括在我幼年时培养起我对数学和自然科学兴趣的父亲,后来把我带进语音和语言处理王国的三位导师王作英教授、库坦普教授和贾里尼克教授,以及在Google不断提携我的诺威格博士和辛格院士。其次,我要感谢在数学上不断和我交流,并且对我的写作尤其是这本书的创作长期给予支持和帮助的同事和朋友,包括李开复博士、清华大学的李星教授、马少平教授和钱颖一教授、斯坦福大学的王永雄教授和张首晟教授、华中科技大学的周笠教授、浙江大学的毛德操教授、京东的郭进博士、自媒体人洪波(Keso)先生、无码科技创始人冯大辉先生、搜狗创始人王小川博士,以及Google过去与现在的很多员工,包括吴丹丹、崔瑾、宿华、王益和吴根清等人。特别值得一提的是,李开复博士和李星教授为本书写了序言,王永雄院士将这本书推荐给了美国的出版商,使得本书的英文版得以出版。此外,我还要感谢我的夫人张彦帮我校对了全书,我的两个女儿吴梦华和吴梦馨为本书绘制了许多插图。
《数学之美》能够从系列博客成为一本屡获g家级大奖的畅销书,JUSTPUB出版团队和人民邮电出版社功不可没。其中JUSTPUB的负责人周筠女士主持了本书的出版工作,审稿编辑李琳骁对书稿进行了多次精心的审读和校对,设计师胡文佳对这本书进行了细致认真的排版,上海屹珂设计团队的陈航峰先生为第三版设计了精美的封面,人民邮电出版社的俞彬、刘涛、毕颖、杨海玲、张天怡、蔡思雨等朋友为这本书的出版发行尽心尽力。是整个项目团队的精诚合作和坚持不懈,让《数学之美》受到了这么多读者的欢迎。在此,我向他们表示诚挚的感谢。
后要感谢所有热心的读者,尤其是那些帮助本书更正错误、完善内容的朋友。当然,也要感谢在互联网上积极传播这个系列博客以及推荐这本书的媒体、网站和个人。我也希望大家能继续支持《数学之美》。
由于本人水平有限,书中难免存有疏漏和错误,希望读者朋友继续不吝赐教,共同将这本书打造得更完美。
吴军
2020年4月于硅谷
前言/序言
第三版前言
数学一词在西方源于古希腊语μ?θημα,意思是通过学习获得的知识。从这个角度来说,早期的数学涵盖的范围比我们今天讲的数学要广得多,和人类的生活也更接近一些。
早期的数学远不如今天神秘,它是非常真实的。与任何事物一样,数学也在不断地演化,而这个发展过程使得数学变得高深起来。数学演化的过程,实际上是将我们生活中遇到的具体事物及其运动的规律不断抽象化的过程。经过几千年的抽象化,大家头脑里能想象的数学只剩下数字、符号、公式和定理了。这些东西和我们的生活似乎渐行渐远,甚至在表面上毫不相关了。今天,除了初等数学,大家一般对数学,尤其是纯粹数学(Pure Mathematics)的用途甚至产生了怀疑。很多大学生毕业后,在大学所学的数学可能一辈子都没有机会应用,几年后就忘得差不多了。这样,很多人也就产生了为什么要学习数学的疑问。更加不幸的是,数学专业的毕业生连就业也颇为困难,在中国和美国都是如此。在很多国人眼里,数学家都像陈景润那样戴着厚厚的镜片、言行举止多少有些木讷。因此,在一般人看来,无论是这些抽象的数字、符号、公式和定理,还是研究它们的数学家,似乎都和美没有什么联系。
然而,事实上数学的用途远远超乎人们的想象,甚至可以说在我们的生活中无处不在。且不说那些和我们生活联系相对较少的领域,比如原子能和航天,都需要用到大量的数学知识。就说我们天天用的产品和技术,背后都有支持它们的数学基础。作为一名工作了20多年的科学工作者,我在工作中经常惊叹数学语言应用于解决实际问题时的魔力。因此,我也很希望把这种神奇讲给大家听。
在古代,重要的知识,除了对世界的认识和了解,就是人与人之间的互通和交流了,我们把它称为广义上的通信。本书的内容也将从这里开始。为了展示数学的美妙之处,我之所以选择了以通信这个领域为切入点,一来是因为数学在通信中应用非常普遍,二来通信和我们的生活息息相连。从工业社会起,通信就占据了人们生活的大量时间。当人类进入电的时代后,通信的扩展不仅拉近了人与人的距离,而且成为带动世界经济增长的火车头。如今,通信及其相关产业可能占到世界GDP很大的一部分。今天城市里的人们花时间多的,无非是在电视机前、互联网上、电话上(不论是固定电话还是手机),这些都是这样或那样的通信方式。甚至原本必须人到现场的很多活动,比如购物,也被建立在现代通信基础之上的电子商务逐渐取代。而现代通信,追溯到100多年前的莫尔斯电报码和贝尔的电话,再回到今天的电视、手机和互联网,都遵循着信息论的规律,而整个信息论的基础就是数学。如果往更远处看,我们人类的自然语言和文字的起源背后都受着数学规律的支配。
“信”字作为“通信”一词的50%,表明了信息的存储、传输、处理和理解的重要性。今天每个人都要使用的搜索,以及我们都觉得很神奇的语音识别、机器翻译和自然语言处理也被包括在其中。也许大家想不到,解决这些问题好的工具就是数学。人们不仅能够十分清晰地用一些通用的数学模型来描述这些领域里看似不同的实际问题,而且能给出非常漂亮的解决办法。每当人们应用数学工具解决了一个个和信息处理相关的问题时,总会感叹数学之美。虽然人类的语言有成百上千种,但处理它们的数学模型却是相同或相似的,这种一致性也是数学之美的表现。在这本书中,我们将介绍一些数学工具,看看人们是如何利用这些数学工具来处理信息,开发出生活中每天都会用到的产品。
数学总是会给人一种深奥和复杂的感觉,但它的本质却常常是简单而直接的。英国哲学家弗朗西斯?培根在《论美德》这篇文章中讲:“美德就如同华贵的宝石,在朴素的衬托下显华丽。”(Virtue is like a rich stone, best plain set.)数学的美妙,也恰恰在于一个好的方法,通常是简单明了的方法。因此,我会将“简单即是美”的思想贯穿全书。
相比第二版,这一版增加了三章新内容,分别介绍当今非常热门的三个主题:区块链的数学基础,量子通信的原理,以及人工智能的数学极限。除此之外,与时俱进,对部分原有章节做了相应的更正和必要的补充。
后,要说明一下本书为何用了不少篇幅来介绍很多我所熟知的自然语言处理和通信领域的s界级专家。这些s界级专家,他们来自不同的国家或民族,不过都有着一个共同的特点,那就是他们的数学基础都特别好,同时运用数学解决了很多实际问题。通过介绍他们日常的工作和生活,希望能让读者对真正的s界级学者有更多的了解和理解。了解他们的平凡与卓越,理解他们取得成功的原因,感受那些真正懂得数学之美的人们所拥有的美好人生。
吴军
2020年3月于硅谷
内容提要
几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。 正式出版前,吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非**读者也能领略数学的魅力。
《数学之美》版上市后深受广大读者欢迎,并荣获国家图书馆第八届文津图书奖。读者说,读了《数学之美》,才发现大学时学的数学知识,比如马尔科夫链、矩阵计算,甚至余弦函数原来都如此*切,并且栩栩如生,才发现自然语言和信息处理这么有趣。
而今,数学在信息产业中的应用越来越广泛,因此,作者在第二版中增加了一些内容,尤其是针对大数据和机器学习的内容,以便满足人们对当下技术的学习需求。
目录
版读者赞誉
第二版出版说明
版序言
第二版序言
第二版前言
第1章 文字和语言vs数字和信息
1 信息 2 文字和数字 3 文字和语言背后的数学 4 小结
第2章 自然语言处理——从规则到统计
1 机器智能 2 从规则到统计 3 小结
第3章 统计语言模型
1 用数学的方法描述语言规律 2 延伸阅读:统计语言模型的工程诀窍
3 小结
第4章 谈谈分词
1 中文分词方法的演变 2 延伸阅读:如何衡量分词的结果 3 小结
第5章 隐含马尔可夫模型
1 通信模型 2 隐含马尔可夫模型 3 延伸阅读:隐含马尔可夫模型的训练
4 小结
第6章 信息的度量和作用
1 信息熵 2 信息的作用 3 互信息 4 延伸阅读:相对熵 5 小结
第7章 贾里尼克和现代语言处理
1 早年生活 2 从水门事件到莫妮卡·莱温斯基 3 一位老人的奇迹
第8章 简单之美——布尔代数和搜索引擎
1 布尔代数 2 索引 3 小结
第9章 图论和网络爬虫
1 图论 2 网络爬虫 3 延伸阅读:图论的两点补充说明 4 小结
第10章 PageRank——Google的民主表决式网页排名技术
1 PageRank 算法的原理 2 延伸阅读:PageRank的计算方法 3 小结
第11章 如何确定网页和查询的相关性
1 搜索关键词权重的科学度? 2 延伸阅读:TF-IDF的信息论依据 3 小结
第12章 有限状态机和动态规划——地图与本地搜索的核心技术
1 地址分析和有限状态机 2 **导航和动态规划
3 延伸阅读:有限状态传感器 4 小结
第13章 Google AK-47的设计者——阿米特·辛格博士
第14章 余弦定理和新闻的分类
1 新闻的特征向量 2 向量距离的度量 3 延伸阅读:计算向量余弦的技巧
4 小结
第15章 矩阵运算和文本处理中的两个分类问题
1 文本和词汇的矩阵 2 延伸阅读:奇异值分解的方法和应用场景
3 小结
第16章 信息指纹及其应用
1 信息指纹 2 信息指纹的用途
3 延伸阅读:信息指纹的重复性和相似哈希 4 小结
第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理
1 密码学的自发时代 2 信息论时代的密码学 3 小结
第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的性问题
1 搜索引擎的反作弊 2 搜索结果的性 3 小结
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里——谈谈大熵模型
1 大熵原理和大熵模型 2 延伸阅读:大熵模型的训练 3 小结
第21章 拼音输入法的数学原理
1 输入法与编码 2 输入一个汉字需要敲多少个键——谈谈香农定理
3 拼音转汉字的算法 4 延伸阅读:个性化的语言模型 5 小结
第22章 自然语言处理的教父马库斯和他的弟子们
1 教父马库斯 2 从宾夕法尼亚大学走出的精英们
第23章 布隆过滤器
1 布隆过滤器的原理 2 延伸阅读:布隆过滤器的误识别问题 3 小结
第24章 马尔可夫链的扩展——贝叶斯网络
1 贝叶斯网络 2 贝叶斯网络在词分类中的应用
3 延伸阅读:贝叶斯网络的训练 4 小结
第25章 条件随机场、文法分析及其他
1 文法分析——计算机算法的演变 2 条件随机场
3 条件随机场在其他领域的应用 4 小结
第26章 维特比和他的维特比算法
1 维特比算法 2 CDMA技术——3G移动通信的基础 3 小结
第27章 上帝的算法——期望大化算法
1 文本的自收敛分类 2 延伸阅读:期望大化和收敛的必然性 3 小结
第28章 逻辑回归和搜索广告
1 搜索广告的发展 2 逻辑回归模型 3 小结
第29章 各个击破算法和Google云计算的基础
1 分治算法的原理 2 从分治算法到Ma 3 小结
第30章 Google大脑和人工神经网络
1 人工神经网络 2 训练人工神经网络 3 人工神经网络与贝叶斯网络的关系 4 延伸阅读:Google大脑 5 小结
第31章 大数据的威力——谈谈数据的重要性
1 数据的重要性 2 数据的统计和信息技术 3 为什么需要大数据
4 小结
附录 计算复杂度
第二版后记
索引
内容简介 |
|
《数学之美》荣获八届文津图书奖,目前累计已*出12万册。 更多相关好书请点击: 海报: |
作者简介 | |
几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,并被热情的读者广为传播,得到高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔科夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣,才真正明白“数学是科学的皇后”这句名言。 相关视频请点击: |
目录 | |
编辑推荐 | |
《数学之美》荣获八届文津图书奖,目前累计已*出12万册。 海报: |
文摘 | |
世间万般表象的背后皆有规律。科学研究的真正目的,在于找到这些规律并能够举一反三地应用这些规律。对于自然科学和工程学,包括计算机科学和通信,数学是描述这些规律性好的工具。做事情的方法有对与错、好和坏之分,从长期看只有采用对的方法、好的方法才能做出好的产品和服务。而任何一个好的方法背后都有充分的理论依据,都有正确的方法论。 |
序言 | |
吴军博士,毕业于清华大学和美国约翰霍普金斯大学(博士),是著名自然语言处理和搜索专家,硅谷风险投资人。 |
....