方滨兴院士:“大搜索”成就大数据的价值,让网络更安全地展示智慧

作者:方滨兴

搜索引擎是互联网应用的支撑,随着信息技术的不断发展,搜索引擎也必将进入跨越式发展的阶段。

搜索引擎毫无疑问是促进互联网应用的一个重大支撑杠杆,撬动了巨量的互联网市场。应该说,在互联网任何应用中都离不开搜索引擎,不论是百度、360那样的通用搜索引擎,还是淘宝网、新浪微博内嵌的专用搜索引擎,都是支持互联网应用不可缺少的基本要素。

随着信息技术的不断发展,搜索引擎也必将进入跨越式发展的阶段。这一跨越式发展将受到大数据、物联网、云计算、社交网络、移动宽带等新兴信息技术的共同推动,使得搜索引擎不再是互联网的专属产物,还将进一步辐射到物联网、社交网络等应用载体中;它将会依托大数据处理技术,在云计算、宽带移动网络技术的支撑下,以为用户提供解决方案的面目出现。由此,新的搜索引擎不仅能够形成一种向网络要智慧的应用模式,还能够极大地促进物联网产业的快速发展。这种技术,我们称之为“大搜索”技术。

1 从大数据的角度来思考

众所周知,大数据是当前最为热门的一个领域,它有五个被称为“5V”的重要属性,即规模巨大(Volume)、产生高速(Velocity)、形式多样(Variety)、不确定性(Veracity)、潜在价值(Value)。其中,前四种属性表明大数据处理所面对的挑战,而“潜在价值”才是人们对大数据技术追求的根本,因为发觉“潜在价值”是促进社会发展的一个重要手段。

潜在价值的发现依靠的是发掘技术。人们可以通过统计的手段来解决指定目标的发掘,例如研判哪只股票成长性最好;可以通过聚类的方法来解决没有预期的发掘,例如网上突发了什么社会热点;可以通过关联技术来解决最佳方案的发掘,例如到哪里看急诊最快。

从大数据中去发掘潜在价值成为企业所采取的重要手段,所产生的经济效益反映出其潜在价值所在。例如,亚马逊的个性化推荐系统,使得提前销售额超过30%。但是,这仅限于在企业内部,使用企业自己的数据及知识发掘系统来为企业自身提供服务。如果数据是开放的、知识发现能力也是通用的,可否就能将知识发掘作为一种服务提供给公众呢?事实上,目前已经存在类似的知识发掘服务,例如新浪微博的“知微”分析服务,就是利用自身的数据为公众来提供知识发掘的服务。

2 从搜索引擎的角度来思考

目前搜索引擎的应用领域涉及三个方面。一是“存在性信息搜索”。如搜信息、商品、联网设备、传感设备、人物、物体位置、物流状态、附近的人等。存在性搜索本质上是将已存在的、符合用户需求的搜索结果提交给用户,关键在于如何能够给出最符合用户需求的信息。二是“服务搜索”。如搜标准时间服务、指定地域气象服务、指定机票服务、当日汇率服务、指定股票走向服务、特定游戏服务、特定视频节目播放服务等。服务搜索是以“尽力而为”为原则,通过汇集大量“服务”的方式,在用户提出搜索需求时,首先判断这个需求是否和系统服务库之中的某个服务对应上,如果能对应上,就为用户启动相应的服务。但所有服务都是确定的,不具有推理与知识发现的能力。三是“知识搜索”。如搜人际关系、作者关系、社会热点、路径规划等。知识搜索是根据用户的需求,为用户提供答案。当然,答案的优良与可信程度取决于搜索引擎的智能程度。

从大数据演变出来的知识发掘服务,到搜索引擎演变出来的知识搜索,两者交汇到一起便形成了“基于搜索引擎的知识发现服务”,这就是“大搜索”。现在的导航系统,不仅有路径规划,还拥有交通流量信息,因此,可以根据实际路况来推荐更为合理、便捷的路径,这就是“大搜索”要完成的事情。

那么,什么是“大搜索”?简单地说,就是从泛在网(网络空间)上获取事件、人和物体等信息,针对物联网和Web2.0/3.0应用模式及大数据价值发掘的需求,通过正确理解用户意图,在对网络空间对象收集、建模和索引的基础上,给出满足用户需求的智慧解答。

3 关于“大搜索”

“大搜索”技术要解决的问题是用户能够到网络空间中寻找智慧,求得解决方案。这就涉及到几个技术要素,即如何在泛在网空间中获取数量巨大、种类繁多的实体(人、物、事件),如何理解用户的真实意图,用户意图与实体之间的关系如何发现、如何关联、如何构建为用户需求来服务的知识结构。

本质上来说,“大搜索”技术体系主要包括五个核心要素。一是信息获取能力。这是智慧的源泉,主要是在网络空间中抓取所需要的信息,并形成大数据的管理结构。二是问题理解能力。这是智慧的推手,主要是解决情景感知、意图理解,以进行必要的预处理。三是知识库构建能力。这是智慧平台,主要是进行多源综合、构建搜索对象空间,并形成用户搜索接口。四是提供解决方案的能力。这是智慧的体现,主要是将知识发掘的结果以恰当的形式呈现给用户。五是安全保护能力。这是智慧的保障,主要是解决隐私保护等安全问题。类比大数据,我们可以把“大搜索”的技术体系描述为“5S”,包括四个核心能力和一个重要保障。核心能力包括“泛网获取(Sourcing)”、“用户感知(Sensing)”、“多源综合(Synthesizing)”、“智慧解答(Solution)”,重要保障是指“安全可信(Secure)”。

3.1 核心能力

1)“泛网获取”(Sourcing from Cyberspace)目的在于支持定向信息获取。传统的搜索引擎只是从互联网上爬取网页数据;而“大搜索”则会根据给定的目标和任务,在泛在网络的多通道中获取包括人、物、事件、时间、空间等各类信息。

2)“用户感知”(Sensing in Context)目的在于解决基于场景感知的意图理解。传统的搜索引擎只关心所提交的查询词;而“大搜索”则不仅能够在语义级别上对用户搜索意图进行理解,还能根据用户的时空位置、情绪状态以及历史偏好等来感知用户的需求,并以恰当的方式进行表示,提交给搜索引擎。

3)“多源综合”(Synthesizing Multi-channel)目的在于构建搜索对象空间。传统的搜索引擎只是根据PageRank给出最相关的结果;而“大搜索”则是从多模态数据(如位置、传感器、交通、社交网络等数据)中进行关联关系综合,并构建由巨规模实体及关联关系所构成的知识仓库,同时,通过知识的迭代来形成相应的知识框架及索引体系,用以存储和管理网络知识,服务于为求解用户智慧答案的知识索取。

4)“智慧解答”(Intellifent Solution)目的在于为用户求解出智慧答案。传统的搜索引擎仅提供符合用户搜索要求的存在信息;而“大搜索”则可根据用户的搜索意图,基于知识仓库对关联的知识进行求解,通过推理演算形成若干个智慧综合的解决方案,其能囊括涉及用户需求的多层面要素,并将之以合适的方式提交给用户。

3.2 重要保障

“安全可信”(Secure&Trust)目的在于在搜索过程中进行必要的安全保护,主要包括5个层面。

1) 设备可靠。处理大规模数据涉及的设备众多,设备可靠性成为“大搜索”安全的基础问题。

2) 系统安全。一方面,“大搜索”平台庞大的计算环境存在系统复杂、运行不稳定的风险;另一方面,“大搜索”在进行数据分析过程中产生的知识和价值容易引发黑客攻击;因此,“大搜索”涉及的系统需要完善安全机制。

3) 数据可信。“大搜索”核心能力的实现通常需要依赖云计算平台的存储和计算能力,因此,可能会出现数据被云服务商破坏和窃取的情况;同时“大搜索”数据来源的繁杂性,也使得对数据的合规性和真实性检查成为必要。

4) 数据可溯源。传统的搜索引擎只有简单的信息过滤措施;而“大搜索”则可对数据来源进行确认,并对之进行标签,以保证数据可溯源。

5) 访问控制。大搜索是从泛在网络的多通道上获取各类多维信息,将大数据用于不同场景,因此,访问控制需求十分突出。利用大搜索技术,根据大数据的密集程度和用户的不同需求,对搜索结果进行细粒度的访问控制,将数据和用户设定为不同的权限等级,使受限制的信息不会被非授权所获取,从而满足多样化的访问控制需求。

6) 隐私保护。这是“大搜索”大量、多源特征引发的新问题。过去人们发布数据时只是简单地隐藏部分敏感信息,但“大搜索”出现后,一些较为隐秘的信息都有可能被挖掘出来,因此,亟需更为先进、强大的技术手段,能够在不侵犯用户隐私的前提下对搜索数据进行有效地分析、开放和共享。

4 结论

“大搜索”从搜索范围来看,是从传统的互联网扩展到综合互联网、电信网与传感网络的泛在网络空间中;从具体的搜索内容来看,是从传统的信息搜索扩展到人、事件、物体;从搜索的结果呈现方式来看,是从传统顺序给出的标量结果展示扩展到包含了时间序列、空间位置序列的向量展示模式;从安全防护重点来看,是从传统的设备、系统安全扩展到数据可信、可溯源以及用户隐私的保护。

“大搜索”的定义如下:在安全可信的前提下,根据一定的策略和方法,从包括互联网、物联网、电信网的泛在网中实时、快速、精准地获取各种物理实体、人物、信息等,针对Web2.0/3.0应用模式及大数据价值发掘的需求,具备洞察理解用户搜索意图的“智能”,能够对网络空间各种对象进行高效地组织和管理,包括对海量、多源、异构、多态、不确定的数据进行收集、建模和索引;具备为用户构建尽可能符合用户需求答案的智慧;能够以“向量”的方式提供智慧解答。其具有以下特点:一是搜索内容由信息扩展到了物体、信息和人物,从传统搜索面对的虚拟世界扩展到了现实的物理世界;二是以智能的方式理解用户意图,以智慧的手段为用户构建答案;三是搜索结果由标量结果变成了向量结果,即由原先的内容呈现结果变成了内容、时间、空间三个维度的结果呈现。

来源:信息通信技术

(0)

相关推荐

  • 浅析:百度技术SEO!

    早前,百度基于搜索引擎优化的从业者一直强调:SEO排名去技术化. 但在实际操作中,却是一个双刃剑! 一方面,百度需要监控,SEO人员,过度优化,操作SEO排名的结果. 一方面,百度期望,SEO人员,将 ...

  • 如何构建一个好的电商搜索引擎?

    编辑整理:刘员京 出品平台:DataFunTalk 导读:机器学习算法的不断进步,搜索引擎巧妙的人机交互设计,分布式系统的革新让搜索引擎在不知不觉中成为人们生活中不可或缺的一部分.同时,随着人们新需求 ...

  • 陈根:建立隐私安全网,不做隐私裸奔人

    文/陈根 互联网时代的隐私泄露早已成为太寻常的事情,有太多的环节可以泄露人们的隐私.任何涉及到信息来往的平台,从婚介到外卖物流,从考试到家政服务,从购票到银行保险,只要人们在上面某个环节留下个人信息, ...

  • 大格局成就大事业八字

    每个正在是上面拼搏的人都希望将来能够出人头地,可你们将来的成就可能会从八字上就能看出,其中对事业运是最有帮助的,就是用神,八字通常若是用神的力量越强,那么将来取得的成就也就会越高,所以如果想要知道自己 ...

  • 最会教育孩子的3个生肖女,今后子女出息大,成就大

    一切家长都希望本人的子女今后可以有长进,这样一来子女今后的生活才干得到保证,但子女是不是能有长进,除了看孩子本人的努力之外,还要看父母对孩子的教育.像是这3个生肖女就很会做教育孩子,所以你们今后的孩子 ...

  • 大情怀成就大医业

    汕尾仁德中医医院吴宪院长致欢迎词(上图) --北京中医药大学附属汉章针刀医院教授崔秀芳在汕尾举行健康讲座侧记 暑气渐消,秋风送爽.8月31日,中国民族医药协会特技联盟主席.世界中联针刀委员会第一常务副 ...

  • 西汉战争:汉景帝削藩引爆七国之乱,阴差阳错,大乱成就大治

    中国古代战史/地史馆NO.116 公元前157年,汉景帝刘启即位.景帝虽然和他老爹共享文景之治的大名,但在治国上却和文帝有着天壤之别,尤其是在处理诸侯国的问题上表现得太过急功近利,最终引发了七国之乱. ...

  • 这家由北大医信原CEO和百度搜索元老创立的大数据公司,让临床更懂生物数据,已融资千万

    2014年人类全基因组测序成本降低至1000美元,全球基因检测领域迎来了第一个春天,中国的基因检测市场更是爆炸式增长.2017年,Illumina再次将全基因组测序成本降低到800美元.测序成本降低的 ...

  • 徐宗本院士:大数据应用价值与挑战并存

    中国科学院院士 徐宗本 互联互通是基础,定制化服务是中心,懂数据会分析是关键. 什么是大数据?什么是数据?什么是资料?资料就是生产过程.管理过程,乃至经济.社会.生活过程的记忆,那些记忆可能表现在一个 ...

  • 宇宙大千世界到底有多大?这是数据,慢慢看吧!

    宇宙大千世界,它到底有多大,下面就让我们以星球大小对比的方式来看看这三千大千世界吧.虽然我们以为自己的星球非常之大,但殊不知在茫茫大千世界里,地球也不过沧海一粟,而人类呢可想而知. 宇宙大千世界,它到 ...

  • 他是福州首任市长兼市委书记,在壮族将军中,数他军衔高成就大

    他是福州首任市长兼市委书记,在壮族将军中,数他军衔高成就大! 对于福州第一任市委书记,想必很多福建人都不知道吧!但在千里以外的广西贫困县,当地人都知道这个县是壮族开国将军最多的县,有一位将军在一九五五 ...

  • 成就大事业的思维,是大多数人所缺失的,也...

    成就大事业的思维,是大多数人所缺失的,也是人们成长的死穴. 那些一路开挂的人,拼的不是资源背景,而是靠这一点逆袭的. 大部分来说都是普通人,缺乏资源,缺乏能力,在人群中,并没有明显的优势,更无法通过他 ...