方滨兴院士:“大搜索”成就大数据的价值,让网络更安全地展示智慧
作者:方滨兴
搜索引擎是互联网应用的支撑,随着信息技术的不断发展,搜索引擎也必将进入跨越式发展的阶段。
搜索引擎毫无疑问是促进互联网应用的一个重大支撑杠杆,撬动了巨量的互联网市场。应该说,在互联网任何应用中都离不开搜索引擎,不论是百度、360那样的通用搜索引擎,还是淘宝网、新浪微博内嵌的专用搜索引擎,都是支持互联网应用不可缺少的基本要素。
随着信息技术的不断发展,搜索引擎也必将进入跨越式发展的阶段。这一跨越式发展将受到大数据、物联网、云计算、社交网络、移动宽带等新兴信息技术的共同推动,使得搜索引擎不再是互联网的专属产物,还将进一步辐射到物联网、社交网络等应用载体中;它将会依托大数据处理技术,在云计算、宽带移动网络技术的支撑下,以为用户提供解决方案的面目出现。由此,新的搜索引擎不仅能够形成一种向网络要智慧的应用模式,还能够极大地促进物联网产业的快速发展。这种技术,我们称之为“大搜索”技术。
1 从大数据的角度来思考
众所周知,大数据是当前最为热门的一个领域,它有五个被称为“5V”的重要属性,即规模巨大(Volume)、产生高速(Velocity)、形式多样(Variety)、不确定性(Veracity)、潜在价值(Value)。其中,前四种属性表明大数据处理所面对的挑战,而“潜在价值”才是人们对大数据技术追求的根本,因为发觉“潜在价值”是促进社会发展的一个重要手段。
潜在价值的发现依靠的是发掘技术。人们可以通过统计的手段来解决指定目标的发掘,例如研判哪只股票成长性最好;可以通过聚类的方法来解决没有预期的发掘,例如网上突发了什么社会热点;可以通过关联技术来解决最佳方案的发掘,例如到哪里看急诊最快。
从大数据中去发掘潜在价值成为企业所采取的重要手段,所产生的经济效益反映出其潜在价值所在。例如,亚马逊的个性化推荐系统,使得提前销售额超过30%。但是,这仅限于在企业内部,使用企业自己的数据及知识发掘系统来为企业自身提供服务。如果数据是开放的、知识发现能力也是通用的,可否就能将知识发掘作为一种服务提供给公众呢?事实上,目前已经存在类似的知识发掘服务,例如新浪微博的“知微”分析服务,就是利用自身的数据为公众来提供知识发掘的服务。
2 从搜索引擎的角度来思考
目前搜索引擎的应用领域涉及三个方面。一是“存在性信息搜索”。如搜信息、商品、联网设备、传感设备、人物、物体位置、物流状态、附近的人等。存在性搜索本质上是将已存在的、符合用户需求的搜索结果提交给用户,关键在于如何能够给出最符合用户需求的信息。二是“服务搜索”。如搜标准时间服务、指定地域气象服务、指定机票服务、当日汇率服务、指定股票走向服务、特定游戏服务、特定视频节目播放服务等。服务搜索是以“尽力而为”为原则,通过汇集大量“服务”的方式,在用户提出搜索需求时,首先判断这个需求是否和系统服务库之中的某个服务对应上,如果能对应上,就为用户启动相应的服务。但所有服务都是确定的,不具有推理与知识发现的能力。三是“知识搜索”。如搜人际关系、作者关系、社会热点、路径规划等。知识搜索是根据用户的需求,为用户提供答案。当然,答案的优良与可信程度取决于搜索引擎的智能程度。
从大数据演变出来的知识发掘服务,到搜索引擎演变出来的知识搜索,两者交汇到一起便形成了“基于搜索引擎的知识发现服务”,这就是“大搜索”。现在的导航系统,不仅有路径规划,还拥有交通流量信息,因此,可以根据实际路况来推荐更为合理、便捷的路径,这就是“大搜索”要完成的事情。
那么,什么是“大搜索”?简单地说,就是从泛在网(网络空间)上获取事件、人和物体等信息,针对物联网和Web2.0/3.0应用模式及大数据价值发掘的需求,通过正确理解用户意图,在对网络空间对象收集、建模和索引的基础上,给出满足用户需求的智慧解答。
3 关于“大搜索”
“大搜索”技术要解决的问题是用户能够到网络空间中寻找智慧,求得解决方案。这就涉及到几个技术要素,即如何在泛在网空间中获取数量巨大、种类繁多的实体(人、物、事件),如何理解用户的真实意图,用户意图与实体之间的关系如何发现、如何关联、如何构建为用户需求来服务的知识结构。
本质上来说,“大搜索”技术体系主要包括五个核心要素。一是信息获取能力。这是智慧的源泉,主要是在网络空间中抓取所需要的信息,并形成大数据的管理结构。二是问题理解能力。这是智慧的推手,主要是解决情景感知、意图理解,以进行必要的预处理。三是知识库构建能力。这是智慧平台,主要是进行多源综合、构建搜索对象空间,并形成用户搜索接口。四是提供解决方案的能力。这是智慧的体现,主要是将知识发掘的结果以恰当的形式呈现给用户。五是安全保护能力。这是智慧的保障,主要是解决隐私保护等安全问题。类比大数据,我们可以把“大搜索”的技术体系描述为“5S”,包括四个核心能力和一个重要保障。核心能力包括“泛网获取(Sourcing)”、“用户感知(Sensing)”、“多源综合(Synthesizing)”、“智慧解答(Solution)”,重要保障是指“安全可信(Secure)”。
3.1 核心能力
1)“泛网获取”(Sourcing from Cyberspace)目的在于支持定向信息获取。传统的搜索引擎只是从互联网上爬取网页数据;而“大搜索”则会根据给定的目标和任务,在泛在网络的多通道中获取包括人、物、事件、时间、空间等各类信息。
2)“用户感知”(Sensing in Context)目的在于解决基于场景感知的意图理解。传统的搜索引擎只关心所提交的查询词;而“大搜索”则不仅能够在语义级别上对用户搜索意图进行理解,还能根据用户的时空位置、情绪状态以及历史偏好等来感知用户的需求,并以恰当的方式进行表示,提交给搜索引擎。
3)“多源综合”(Synthesizing Multi-channel)目的在于构建搜索对象空间。传统的搜索引擎只是根据PageRank给出最相关的结果;而“大搜索”则是从多模态数据(如位置、传感器、交通、社交网络等数据)中进行关联关系综合,并构建由巨规模实体及关联关系所构成的知识仓库,同时,通过知识的迭代来形成相应的知识框架及索引体系,用以存储和管理网络知识,服务于为求解用户智慧答案的知识索取。
4)“智慧解答”(Intellifent Solution)目的在于为用户求解出智慧答案。传统的搜索引擎仅提供符合用户搜索要求的存在信息;而“大搜索”则可根据用户的搜索意图,基于知识仓库对关联的知识进行求解,通过推理演算形成若干个智慧综合的解决方案,其能囊括涉及用户需求的多层面要素,并将之以合适的方式提交给用户。
3.2 重要保障
“安全可信”(Secure&Trust)目的在于在搜索过程中进行必要的安全保护,主要包括5个层面。
1) 设备可靠。处理大规模数据涉及的设备众多,设备可靠性成为“大搜索”安全的基础问题。
2) 系统安全。一方面,“大搜索”平台庞大的计算环境存在系统复杂、运行不稳定的风险;另一方面,“大搜索”在进行数据分析过程中产生的知识和价值容易引发黑客攻击;因此,“大搜索”涉及的系统需要完善安全机制。
3) 数据可信。“大搜索”核心能力的实现通常需要依赖云计算平台的存储和计算能力,因此,可能会出现数据被云服务商破坏和窃取的情况;同时“大搜索”数据来源的繁杂性,也使得对数据的合规性和真实性检查成为必要。
4) 数据可溯源。传统的搜索引擎只有简单的信息过滤措施;而“大搜索”则可对数据来源进行确认,并对之进行标签,以保证数据可溯源。
5) 访问控制。大搜索是从泛在网络的多通道上获取各类多维信息,将大数据用于不同场景,因此,访问控制需求十分突出。利用大搜索技术,根据大数据的密集程度和用户的不同需求,对搜索结果进行细粒度的访问控制,将数据和用户设定为不同的权限等级,使受限制的信息不会被非授权所获取,从而满足多样化的访问控制需求。
6) 隐私保护。这是“大搜索”大量、多源特征引发的新问题。过去人们发布数据时只是简单地隐藏部分敏感信息,但“大搜索”出现后,一些较为隐秘的信息都有可能被挖掘出来,因此,亟需更为先进、强大的技术手段,能够在不侵犯用户隐私的前提下对搜索数据进行有效地分析、开放和共享。
4 结论
“大搜索”从搜索范围来看,是从传统的互联网扩展到综合互联网、电信网与传感网络的泛在网络空间中;从具体的搜索内容来看,是从传统的信息搜索扩展到人、事件、物体;从搜索的结果呈现方式来看,是从传统顺序给出的标量结果展示扩展到包含了时间序列、空间位置序列的向量展示模式;从安全防护重点来看,是从传统的设备、系统安全扩展到数据可信、可溯源以及用户隐私的保护。
“大搜索”的定义如下:在安全可信的前提下,根据一定的策略和方法,从包括互联网、物联网、电信网的泛在网中实时、快速、精准地获取各种物理实体、人物、信息等,针对Web2.0/3.0应用模式及大数据价值发掘的需求,具备洞察理解用户搜索意图的“智能”,能够对网络空间各种对象进行高效地组织和管理,包括对海量、多源、异构、多态、不确定的数据进行收集、建模和索引;具备为用户构建尽可能符合用户需求答案的智慧;能够以“向量”的方式提供智慧解答。其具有以下特点:一是搜索内容由信息扩展到了物体、信息和人物,从传统搜索面对的虚拟世界扩展到了现实的物理世界;二是以智能的方式理解用户意图,以智慧的手段为用户构建答案;三是搜索结果由标量结果变成了向量结果,即由原先的内容呈现结果变成了内容、时间、空间三个维度的结果呈现。
来源:信息通信技术