2019人工智能13个核心领域的最新进展
随着移动互联网发展红利逐步消失,后移动时代已经来临,人工智能成为新一轮产业变革的核心方向:科技巨头纷纷把人工智能作为后移动时代的战略支点,努力在云端建立人工智能服务的生态系统;传统制造业在新旧动能转换,将人工智能作为发展新动力,不断创造出新的发展机遇……在这个过程中,技术突破对人工智能的发展起着至关重要的作用,人工智能核心技术领域正在被更多人熟知。
l 机器学习
机器学习(machine leaming)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。深度学习的出现,让图像、语音等感知类问题取得了真正意义上的突破。按照训练样本提供的信息以及反馈方式的不同,机器学习算法被分为以下几类:监督学习(Supervised Learning)、无监督学习(UnsupervisedLearning,UL)、半监督学习(Semi-SupervisedLearning)以及强化学习(Reinforcement Learning,RL),具体算法包括:线性回归、分类与回归树、随机森林、逻辑回归、朴素贝叶斯、k 最近邻等。其中,深度学习是近年机器学习领域发展最快的分支之一,大致分为卷积神经网络、AutoEncoder、循环神经网络 RNN、网络表示学习与图神经网络(GNN )、增强学习、生成对抗网络等不同方向与应用。
l 计算机视觉
计算机视觉(computer vision)是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学,它利用摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。计算机视觉系统就是创建了能够在2D 的平面图像或者 3D 的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。由于计算机视觉技术系统在基于高性能的计算机的基础上,其能够快速的获取大量的数据信息并且基于智能算法能够快速的进行处理信息,也易于同设计信息和加工控制信息集成。计算机视觉本身包括了诸多不同的研究方向,比较基础和热门的方向包括:物体识别和检测(Object Detection),语义分割(Semantic Segmentation),运动和跟踪(Motion & Tracking),视觉问答(Visual Question& Answering)等。计算机视觉 40 多年的发展中,人们提出了大量的理论和方法,总体上经历了三个主要历程。即:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。
l 知识工程
在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们利用知识工程为大数据添加语义、知识,使数据产生智慧(Smart Data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。在知识工程生命周期的各个阶段包括了多种关键技术:知 识 表 示( knowledge representation)、知识获取(knowledge acquisition)、知识推理(knowledgereasoning)、知识集成(knowledge integration)和知识存储(knowledge storage)等。目前除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识图谱的创新应用还有待开发。
l 自然语言处理
自然语言处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能、计算机科学和语言学所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,包括自然语言理解和自然语言生成,前者是指计算机能够理解自然语言文本的意义,后者则是指能以自然语言文本来表达给定的意图。近年来,预训练语言模型在自然语言处理领域有了重要进展。预训练模型指的是首先在大规模无监督的语料上进行长时间的无监督或者是自监督的预先训练(pre-training),获得通用的语言建模和表示能力。之后在应用到实际任务上时对模型不需要做大的改动,只需要在原有语言表示模型上增加针对特定任务获得输出结果的输出层,并使用任务语料对模型进行少许训练即可,这一步骤被称作微调(fine tuning)。
l 语音识别
语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容,使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等。目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如,现今流行的手机语音助手,就是将语音识别技术应用到智能手机中,能够实现人与手机的智能对话功能。其中包括美国苹果公司的 Siri 语音助手,智能 360 语音助手,百度语音助手等。近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。
l 计算机图形学
计算机图形学是一门研究通过计算机将数据转换成图形,并在专门显示设备上显示的原理方法和技术的学科。它是建立在传统的图形学理论、应用数学及计算机科学基础上的一门边缘学科。这里的图形是指三维图形的处理。简单来讲,它的主要研究内容是研究如何在计算机中表示图形,以及利用计算机进行图形的计算处理和显示的相关原理和算法。计算机图形学的总体框架可以包括以下几个部分:数学和算法基础、建模、渲染以及人机交互技术。随着数字化技术和互联网的发展,计算机图形学在许多领域都已经得到了广泛的应用,如遥感图像分析、多媒体通信、医疗诊断、机器人视觉等。当前计算机图形学的研究逐渐向多学科交叉融合方向发展,即有与认知计算、计算器学习、人机交互的融合,也有与大数据分析、可视化的融合;不仅针对三维数字模型,而且涵盖了图像视频,与计算机视觉深度交叉。
l 多媒体技术
媒体是指传递信息的载体,如数字、文字、声音、图形和图像等,多媒体技术就是融计算机、声音、文本、图像、动画、视频和通信等多种功能于一体的技术,它借助日益普及的高速信息网,可实现计算机的全球联网和信息资源共享,并且它给传统的计算机系统、音频和视频设备带来了方向性的变革。近年来,随着数字化技术的发展,多媒体技术突飞猛进,音视频技术是当前最活跃、发展最迅速的高新技术领域之一,研究领域包括多媒体信息处理、多媒体数据压缩编码、多媒体内容分析与检索技术、多媒体交互与集成、多媒体通信与网络、多媒体内容安全、多媒体系统与虚拟现实等。在近几年的研究中,多媒体技术呈现出与计算机体系结构、计算机网络、人机交互、信息安全、社会网络等多学科交叉融合的发展趋势,研究热点主要集中在大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像、实时视频流化等方面。
l 人机交互
人机交互(Human-Computer Interaction,HCI),是人与计算机之间为完成某项任务所进行的信息交换过程,是一门研究系统与用户之间的交互关系的学问,与认知学、人机工程学、心理学等学科领域有密切的联系,它是使信息技术融入社会,深入群体,达到广泛应用的技术门槛,改善人机交互能够提高员工的生产效率,学习人机交互能够降低产品的后续支持成本。随着人机交互的发展,图形用户界面(Graphical User Interface, GUI)的产生提供了普通人与计算机便捷交互的工具和方法,让计算机从实验室走进办公室、走入家庭,鼠标、手指的使用使人们更少依赖操控工具,而未来终端技术的发展还将在以下三个方面迎来新的突破:持自然动作的感知技术,面向穿戴的新型终端和基于语音识别的对话交互。计算无所不在,交互自然高效是发展趋势,人机交互的研究和开发空间依旧很大。
l 机器人
机器人广义上包括一切模拟人类行为或思想以及模拟其他生物的机械(如机器狗,机器猫等),是综合了机械、电子、计算机、传感器、控制技术、人工智能、仿生学等多种学科的复杂智能机械。目前,智能机器人已成为世界各国的研究热点之一,成为衡量一国工业化水平的重要标志。机器人是自动执行工作的机器装置,因此,它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。同时,随着AI 兴起,机器人拥有了一种新型的学习方式:深度强化学习,这一新方式借助通用化的神经网络表示,处理复杂的传感器输入,来让机器人从自己的经验活动中直接学习行为,相比传统方式,它解放了工程设计人员们的双手,不再需要程序员们手动设计机器人每一个动作的每一项精确参数。
l 数据库技术
数据库技术是网络信息化管理系统的基础,新一代数据库系统不仅保持和继承了传统数据库系统的各项功能,支持知识管理、数据管理和对象管理,而且还对其它应用系统开放,在网络上支持标准网络协议,具有良好的可连接性、可移植性、可互操作性和可扩展性。数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等互相渗透和结合,是当前数据库技术应用的主要特征,当前具有此类特征的新型数据库系统包括如分布式数据库系统、知识库系统和主动数据库系统等。在数据管理领域,传统机器学习和深度学习等技术也有着巨大的潜力和广阔的应用前景。如,数据库系统所积累的海量历史查询记录可以为基于学习的数据库智能优化技术提供数据支撑。此外,人工智能技术让自治数据库的自动决策管理、自动调优和自动组装等需求成为可能。人工智能技术让自治数据库的自动决策管理、自动调优和自动组装等需求成为可能。
l 可视化
可视化技术是把各种不同类型的数据转化为可视的表示形式,并获得对数据更深层次认识的过程。可视化技术充分利用计算机图形学、图像处理、用户界面、人机交互等技术,以人们惯于接受的表格、图形、图像等形式,并辅以信息处理技术(例如:数据挖掘、机器学习等)将复杂的客观事物进行图形化展现,使其便于人们的记忆和理解,其特点可总结为可视性、交互性和多维性。据可视化针对不同的数据类型及研究方向,可以进一步划分为科学数据可视化、信息可视化,以及可视分析学三个子领域,科学可视化是针对科学数据的可视化展现技术。目前可视化技术在各行各业中均得到了广泛的应用。其中,可视化技术在信息安全、智慧医疗、电子商务、机器学习、智慧城市、文化体育、数字新闻、气象预报、地质勘测等诸多领域产生了非常广泛的应用,并逐渐成为这些领域当中越来越重要的组成部分。
l 数据挖掘
数据挖掘(Data Mining)是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤,它是一门综合的技术,涉及统计学、数据库技术和人工智能技术的综合,其价值在于用数据挖掘技术改善预测模型。技术涉及的常见的任务包括:数据表征、异常检测、关联规则学习、聚类、分类、回归、数据演化分析等。随着信息技术的发展,数据挖掘成为一门交叉学科,结合数据库、人工智能、模式识别、神经网络、机器学习、统计、高性能计、数据可视化、空间数据分析和信息检索等很多方面的知识。近年来,数据挖掘领域的主要发展归为:复杂数据挖掘与分布式数据挖掘。该项技术被广泛地应用于各类实际问题,包括金融数据分析、推荐系统等。
l 信息检索与推荐
信息检索(Information Retrieval,IR)是计算机科学的一大领域,主要研究如何为用户访问他们感兴趣的信息提供各种便利的手段,即:信息检索涉及对文档、网页、联机目录、结构化和半结构化记录及多媒体对象等信息的表示、存储、组织和访问,信息的表示和组织必须便于用户访问他们感兴趣的信息。其主要环节包括信息内容分析与编码、组成有序的信息集合以及用户提问处理和检索输出。推荐系统(Recommendation System,RS)是指信息过滤技术,从海量项目(项目是推荐系统所推荐内容的统称,包括商品、新闻、微博、音乐等产品及服务)中找到用户感兴趣的部分并将其推荐给用户,这在用户没有明确需求或者项目数量过于巨大、凌乱时,能很好地为用户服务,解决信息过载问题。一方面,两者都是用户获取信息的手段,并互为补充,另一方面,也各有区别,如:主动与被动的区别或是个性化程度的高低。
当前,人工智能已经成为引领新一轮科技革命和产业变革的战略性技术,我国人工智能产业进入快速发展阶段,在此阶段,技术突破与创造性应用都将对人工智能的发展起到关键推动作用。