科学数据共享的安全管理
一、引言
大数据技术的快速发展和推广将深刻影响科学数据的管理和共享方式,也将对相应的安全管理带来新的变化。科学数据是一种基础性、战略性的科技资源,一旦被窃取或破坏,会造成的重大的危害和损失。所以,在加强科学数据共享的过程中,安全管理是一个不容忽视的关键问题。科学数据安全是指通过必要的技术和管理措施,保护科学数据在其全生命周期中免受破坏性外力和非授权操作的侵害,保持科学数据的机密性、完整性和可用性。本文将重点研究科学数据在共享使用过程中的安全问题。
二、数据共享的安全需求
1)机密性的需求
机密性是指只有授权用户才能获取和使用数据,非授权用户则无法获取数据。大数据挖掘技术的发展对涉密数据审查提出了更高的要求,因为某些不涉密的科学数据在与其他数据进行关联分析后,也可能挖掘出有价值的情报。大数据时代对访问控制提出了新的挑战:(1)用户角色和数据种类的数量都在快速增长;(2)角色的权限和数据的权限均处于动态变化的过程中。因此,需要一种灵活的、支持细粒度的访问控制技术,能够满足动态、实时控制数据的安全访问机制。
2)完整性的需求
完整性是指数据在存储和共享的过程中,不被非法授权修改和破坏,保证数据的一致性。科学数据通常采用数字化的格式存储,其存储介质比较脆弱,可能因断电等因素遭受损坏。科学数据本身具有易被改变且改变后不易察觉的特点,硬件故障和黑客攻击等事件都可能损害数据的完整性。此外,技术的更新换代可能造成旧技术的淘汰,导致数据的无法使用。体量巨大和种类繁多的科学数据极大加剧了完整性保护的复杂度,不仅需要大量的存储空间和计算资源,而且需要一套完善的完整性验证机制。
3)可用性的需求
可用性是保证授权用户对科学数据的访问和使用,不因偶然或人为因素而影响数据的使用。大数据时代对系统的持续服务能力和数据的快速恢复能力提出了更高的要求。系统平台在遭到攻击和破坏时,需要保持当前未完成的会话状态,自动切换到备份系统继续提供服务。大体量的科学数据进行备份对存储空间提出了很大的挑战。考虑到不同类型的科学数据对安全性的要求是不同的,可以据此制定灵活的数据备份策略。
三、相关技术及趋势
3.1 完整性校验技术
数据的完整性校验技术包括:数据持有性证明机制和数据可恢复性证明机制。其中,前者的计算代价小,可用于验证数据的完整性,包括MAC认证码、RSA签名、BLS签名等。这些技术只适应于静态的数据环境。为适应数据的动态更新,支持动态操作的PDP机制逐渐受到关注,包括基于跳表的PDP机制和基于MerkleTree的PDP机制。这些方法存在的问题是具有较高的计算复杂度。大数据时代,一方面数据的体量非常大,另一方面数据的更新频率不断升高,因此未来的完整性校验技术需要在支持数据动态变化的基础上降低算法的复杂度。
3.2 访问控制技术
传统的访问控制技术适应于静态环境下小体量的数据系统,主体获得访问权限后可以长期访问数据资源。为解决访问权限的动态管理问题,可从任务管理的角度建立控制策略,主体执行任务时才获得权限,任务终止后将失去权限。基于对象的访问控制技术支持复用、继承和派生等操作,提升了控制的灵活性。基于行为模型的威胁发现技术通过行为学习和建模,可发现高级持续性威胁等高隐蔽性的侵害行为,但在前期需要有训练学习的过程。在大数据背景下,一方面需要细粒度的权限动态管理技术;另一方面也需要具备学习能力,以适应动态变化的安全环境。
3.3 数据加密技术
对称加密采用相同的密钥进行加密和解密,具有计算量小和加密效率高的特点,但密钥管理复杂度较高;非对称加密采用不同的密钥进行加密和解密,具有安全性高和密钥管理简单的特点,但其也有加密效率低的缺点。为减轻密钥和密文管理的负担,代理重加密技术允许第三方(代理)将使用发送方公钥加密的密文转换为使用接收方公钥加密的密文,提高了数据共享的灵活性。为解决一对多的加密共享问题,可采用基于属性的加密方法。这些算法的时间复杂度较高,后续需要对其进行改进以降低其复杂度,才能适应大数据时代的要求。
3.4 隐私保护技术
隐私内容的发现和预警技术是是一种主动的保护数据私密性的机制。数据匿名化技术是通过对数据中涉及隐私的属性值进行匿名化处理。差分隐私保护技术通过添加适当的噪声数据来实现隐私保护。另一种思路是通过数据加密,使加密前后的数据对指定的运算具有结果一致性。同态加密技术和安全多方计算技术兼顾了数据的保密性和可用性,但具有很高的计算复杂度。在大数据背景下,一方面要发展隐私内容的发现和预警技术,做好前端的隐私保护;另一方面对核心数据采用加密的方法,在数据的共享过程中保护数据的隐私。
3.5 安全审计技术
传统的面向中小系统的安全审计技术取得了一定的进展。但是大数据背景下,大型数据管理系统的业务逻辑更加复杂,系统操作和用户访问量呈指数增长趋势,而且网络攻击更具隐蔽性。为应对这些新变化,需要一种细粒度的安全审计技术,一方面要对所有的系统操作和用户访问进行记录和保存;另一方面要从海量的系统日志里分析和发现系统存在的安全问题。这既需要借助大数据强大的分析挖掘能力,也需要专业审计人员的综合判断能力。此外,系统需要具备学习的能力,及时将安全审计获取的结果等知识等转化为规则或者模型,从而更好的适应快速变化的环境。
四、结论
本文分析了在保障科学数据的机密性、完整性和可用性等方面所面临的新要求。其次,分析了相关的安全技术的现状和趋势。大数据技术的发展虽然给科学数据的安全带来新的挑战,但同时也提供了新的思路和方法。建议未来可重点关注的研究方向包括:(1)研究基于大数据的涉密审查技术,能够敏锐的发现隐藏在海量数据中,借助关联分析与发掘可导致泄密的科学数据。(2)研发智能化的安全审计技术,通过对海量系统日志信息的分析和挖掘,提前、准确的发现系统存在的安全威胁。(3)大力发展机器学习技术,使计算机自主学习已有的知识和规则,提升对安全事件进行智能化的判断和处理能力。
来源:《中国科技资源导刊》