模式识别学科发展报告丨前言
自20世纪50年代以来,模式识别已发展成为一个学科(Discipline)或研究领域(Field of study)。O.G. Selfridge在1957年一个会议上从计算机科学角度给出了一个定义:Pattern recognition is the extraction of the significant features from a background of irrelevant detail(模式识别是从无关细节的背景中提取有意义特征的过程)。King Sun Fu(傅京孙)在1982年出版的《Applications of Pattern Recognition》编著第一章说The problem of pattern recognition usually denotes classification and/or description of a set of processes or events. The set of processes or events to be classified could be a set of physical objects or a set of more abstract ones such mental states. The processes or events with some similar properties are grouped into a class.(模式识别问题是指对过程或事件的分类和/或描述。过程或事件可以是物理上的物体或抽象的事件如精神状态。具有相似特点的过程或事件组成类别)。这个定义对模式识别的技术(分类、描述)和模式、类别都表达的非常明确。
综合模式识别认知、功能作用和计算原理等方面的特点,我们可以给出一个更加全面的定义:模式识别学科研究如何使机器(包括计算机)模拟人的感知功能,从环境感知数据中检测、识别和理解目标、行为、事件等模式。同时定义模式为数据中具有一定特点的目标、行为或事件,具有相似特点的模式组成类别(class, category)。单个模式又称为样本(sample)或样例(instance)。
20世纪50年代是计算机模式识别正式登场的时期。1957年C.K. Chow发表的用于文字识别的统计决策方法是典型的统计模式识别方法,该文献给出了贝叶斯决策(包括最小风险决策、最大后验概率决策、带拒识的最小风险决策)的基本框架。早期的一些代表性工作或重要事件还包括:1957年Rosenblatt研制的感知机(Perceptron);1965年N.L. Nilsson发表的关于学习机器的著作(里面主要内容是模式分类);1966年第一个以模式识别为主题的研讨会;1968年发表的模式识别研究综述;1968年国际期刊Pattern Recognition创刊;Fukunaga和Duda & Hart分别于1972年和1973年发表的模式识别经典教材。70年代是模式识别研究快速发展的一个时期,傅京孙提出句法模式识别方法并形成了理论方法体系。
模式识别的国际组织在上世纪70年代正式成立。根据国际模式识别协会(IAPR)历史介绍,第一届国际模式识别联合大会(IJCPR,1980年以后改名为ICPR)于1973年召开,第二届在1974年召开,以后每两年举办一次。IAPR于1974年IJCPR期间开始筹建,1976年IJCPR期间召开了第一次执委会会议,1977年开始接受会员申请, 在1978年IJCPR期间召开了第一次Governing Board(主席团)会议,宣告IAPR正式成立。
20世纪80年代,模式识别方法发展的最大亮点是多层神经网络的引入。1986年Rumelhart等人发表了误差反向传播(Back-propogation, BP)算法(其实Paul Werbos在其1974年的博士论文中描述了BP算法,没有引起太多注意)。BP算法使多层神经网络作为模式分类器具有自学习能力,其隐层神经元具有特征提取功能,因而迅速成为一种主流的模式识别方法。卷积神经网络首先在1990年提出。支持向量机于1995年出现,由于其克服了多层神经网络训练的局部极值问题,具有更好的泛化性能,逐渐成为新的主流方法。
90年代到21世纪初,模式识别和机器学习(模式分类器设计是一个学习问题,因此大多机器学习研究面向模式识别)领域多种新的方法兴起,典型的有多分类器系统(早期工作出现在1990年,后来发展成为集成学习方向)。在模式识别中发挥重要作用的半监督学习、多标签学习、多任务学习、迁移学习和领域自适应(与领域自适应类似的分类器自适应早在上世纪60年代就已经有尝试)、以马尔科夫随机场和条件随机场为典型代表的概率图模型等均兴起于这个时期。
2006年以后,深度学习(深度神经网络方法)逐渐成为主流,并陆续在多数模式识别应用任务中大幅超越传统模式识别方法(基于人工特征提取的分类方法)的性能。深度学习的方法最早发表在2006年,后来陆续提出了一系列改进训练收敛性和泛化性能的深度神经网络模型和训练算法,包括不同的训练方法或正则化方法、不同的卷积神经网络结构、循环神经网络、self-attention网络、图卷积网络等。2012年深度卷积神经网络在大规模图像分类竞赛Imagenet中取得巨大成功,从此推动深度学习的研究和应用进入高潮。深度学习的优越性能从视觉领域延伸到自然语言处理领域,开始在机器翻译、阅读理解、自动问答等语言理解任务中大幅超越基于统计语言模型的方法。
目前,深度学习方法仍然在模式识别和人工智能领域占据统治地位。但是随着研究的深入和应用的扩展,深度学习方法的不足也越来越凸显,如小样本泛化能力不足、可解释性不足、鲁棒性(稳定性)差、语义理解和结构理解能力弱,连续学习中遗忘严重,等等。针对这些缺陷学术界在不断探索新的模型(包括与知识规则和传统模式识别方法的结合)和学习算法等,研究和应用都还在不断向前发展。比如,面向开放环境的鲁棒模式识别、可解释性神经网络、面向小样本学习和可解释性的模块化神经网络、结合感知和符号推理的模型、自监督学习、连续学习(又称终生学习)等。
模式识别和人工智能不同分支领域(机器学习、计算机视觉、自然语言处理、数据挖掘等)高度交叉。模式识别中的分类、聚类等问题也是机器学习的主要研究内容。机器学习领域把Nilsson(1965年)和Duda & Hart(1973年)的早期著作当作是机器学习的代表作,这两本书其实主要是关于模式识别的。Bishop在他2006年出版的《Pattern Recognition and Machine Learning》一书前言中说:Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field.(模式识别来源于工程,机器学出生长于计算机科学。两者可以看作是同一个领域的两个面)。傅京孙在1971年出版一本编著名称也叫Pattern Recognition and Machine Learning。机器学习作为一个研究领域,出现比较晚一些。1980年代才有以Machine Learning为题的专著和大会(ICML第一届在1980年)。
计算机视觉的主要研究内容是图像、视频的分析、识别与理解,与模式识别也是高度交叉的,尤其目标和行为识别是典型的模式识别问题,因此计算机视觉中大量使用模式识别的理论和方法(如分类和学习方法)。1973年《Pattern Classification and Scene Analysis》中的Scene Analysis是典型的计算机视觉的工作。70年代以来IJCPR(1980年改名ICPR)会议中都有大量的图像处理与分析的论文。一般认为,David Marr于1982年出版的专著《Vision》标志着计算机视觉领域正式形成。计算机视觉领域的典型活动计算机视觉与模式识别大会(CVPR)开始于1983年,国际计算机视觉大会(ICCV)开始于1987年。在这些会议中,传统模式识别领域中的一般图像分析与识别(包括形状分析、目标识别、文档图像分析和文字识别)甚至一般分类器学习的工作也开始大量出现。
模式识别与机器学习、计算机视觉、语言处理、数据挖掘等领域的高度重叠和交叉说明学科领域是随着历史不断分化和融合的。目前这些相关领域互相学习借鉴、相互促进,未来会结合更加紧密。
2018-2019年,模式识别国家重点实验室承担了中国科学院学部学科发展战略研究项目“模式识别发展战略研究”。鉴于过去60多年模式识别的理论方法和应用都产生了巨大进展,而在通信、传感和计算软硬件技术不断发展、应用场景渐趋复杂开放的新形势下,又面临很多新的理论和技术问题,本项目希望对模式识别领域的发展历史进行全面梳理,整理出至今在学术届或应用中产生了重大影响的主要研究进展,并且面向未来,提炼出具有重要理论价值或应用需求的值得研究的问题,供模式识别学术界参考,以期对未来基础研究和应用研究产生指导,产出具有重大理论价值或应用价值的研究成果。
实验室邀请国内本领域科研一线的研究者进行了多轮研讨交流,并经实验室内几十名研究人员撰写整理,提炼出模式识别领域过去50项重要研究进展和未来30项重要研究问题,分模式识别基础、计算机视觉、语音语言信息处理、模式识别应用技术四个方向分别介绍。模式识别基础理论和方法是研究的核心,主要研究内容包括分类决策基础理论、多种分类器设计和学习方法、特征学习、聚类分析等。计算机视觉是机器感知中最重要的部分(人和机器从环境获得信息的最大通道是视觉感知),视觉感知数据是模式识别处理的最重要的对象。主要研究内容包括图像处理与分割、图像增强与复原、三维视觉、场景分析、目标检测与识别、行为识别等。语言信息(包括语音和文本信息)是一类重要的模式信息,语言信息处理是模式识别和机器感知的一种重要形式,自然语言处理(文本理解)发展出了自己的理论方法体系,当前与听觉和视觉感知的交叉日趋紧密,且与模式识别和机器学习的方法越来越近。模式识别技术在社会生活中应用非常广泛,本报告不介绍那些单纯应用模式识别技术的场景或技术,而是选择性地介绍跟模式识别理论方法研究结合紧密(比如针对/结合应用场景研究模式识别方法和技术)的应用问题,如生物特征识别、遥感图像分析、医学图像分析、文档图像分析和文字识别、多媒体计算等。
现在发布该报告第一版,包括各个研究进展和研究问题的简介,希望获得学术界的反馈和修改建议。未来将对各个进展/问题条目做详细描述,整理成一本书正式出版。
下面是各方向重要研究进展和研究问题的目录:
一、模式识别基础(13项)
1. 贝叶斯决策与估计
2. 概率密度估计
3. 分类器设计
4. 聚类
5. 特征提取与学习
6. 人工神经网络与深度学习
7. 核方法与支撑向量机
8. 句法结构模式识别
9. 概率图模型
10. 集成学习
11. 半监督学习
12. 迁移学习
13.多任务学习
(主要撰写者:向世明、张煦尧、刘成林、张燕明、杨沛沛、孟高峰)
二、 计算机视觉(13项)
1. 计算摄像学
2. 初期视觉
3. 图像增强与复原
4. 图像特征提取与匹配
5. 多视几何理论
6. 摄像机标定与视觉定位
7. 三维重建
8. 目标检测与识别
9. 图像分割
10. 图像场景理解
11. 图像检索
12. 目标跟踪
13. 行为与事件分析
(主要撰写者:吴毅红、王云龙、樊彬、孟高峰、申抒含、黄岩、张兆翔、王金桥、唐明、原春锋)
三 、语音语言信息处理(12项)
1. 语音语言基础资源建设
2. 汉字编码、输入输出及汉字信息处理
3. 知识工程与知识库建设
4. 语言模型
5. 序列标注模型
6. 句法结构理论和篇章表示理论
7. 文本表示模型
8. 自动问答与人机对话
9. 机器翻译
10. 听觉场景分析与语音增强
11. 语音识别
12. 语音合成
(主要撰写者:宗成庆、陶建华、张家俊、易江燕)
四 、模式识别应用技术(12项)
1. 脸部生物特征识别
2. 手部生物特征识别
3. 行为生物特征识别
4. 声纹识别
5. 图像和视频合成
6. 遥感图像分析
7. 医学图像分析
8. 文字与文本识别
9. 复杂文档版面分析
10. 多媒体数据分析
11. 多模态情感计算
12. 图像取证与安全
(主要撰写者:赫然、王亮、孙哲南、陶建华、易江燕、向世明、何晖光、高君宇、刘成林、殷飞、宋纯锋、王伟、刘勇、刘斌、李琦)
一、模式识别基础(10项)
1. 面向模式识别的认知机理与计算模型
2. 理想贝叶斯分类器逼近
3. 基于不充分信息的模式分类器学习
4. 开放环境下自主进化学习
5. 知识嵌入的模式识别
6. 交互式学习的理论模型与方法
7. 可解释性深度模型
8. 新型计算架构下的模式识别
9. 模式结构解释和结构模型学习
10. 安全强化的模式识别理论与方法
(主要撰写者:向世明、张煦尧、刘成林、张兆翔、张燕明)
二、计算机视觉(6项)
1. 新型成像条件下的视觉研究
2. 生物启发的计算机视觉研究
3. 多传感器融合的视觉定位和三维重建
4. 高动态复杂场景下的视觉场景理解
5. 小样本目标识别与理解
6. 复杂行为语义理解
(主要撰写者:吴毅红、王云龙、张兆翔、申抒含、黄岩、原春锋)
三、语音语言信息处理(7项)
1. 语义表示和语义计算模型
2. 面向小样本和鲁棒可解释的自然语言处理
3. 基于多模态信息的自然语言处理
4. 交互式、自主学习的自然语言处理
5. 类脑语言信息处理
6. 复杂场景下的语音分离、识别与传输
7. 小数据个性化语音模拟
(主要撰写者:宗成庆、张家俊、陶建华、易江燕)
四、模式识别应用技术(7项)
1. 非受控环境下的可信生物特征识别
2. 生物特征深度造假和鉴伪
3. 遥感图像弱小目标识别和场景理解
4. 医学图像高精度解释
5. 复杂文档识别与重构
6. 异构网络空间关联事件分析与协同监控
7. 神经活动成像分析
(主要撰写者:赫然、王亮、孙哲南、向世明、刘成林、何晖光、高君宇)