我们每天产生和使用的数据量庞大到难以计算。但是这也意味着数据的产生、传输和存储变得异常频繁,安全风险也随之增加。不论是政府还是企业都面临着巨大的数据安全风险,一旦数据泄露都会造成无法挽回的局面。据报道,2022 年全球数据泄露事件总计超过两万件,与 2021 年同期相比,2022 年的数据泄露事件增长了 14%。在数字经济时代,如何在确保数据安全的前提下有效发挥数据资产的商业价值,成为企业亟需解决的问题。
近日,亚马逊云科技召开了以“安全无忧 释放数据价值”为主题的数据分析与安全媒体沟通会。在会上,亚马逊云科技大中华区产品部总经理陈晓建介绍了围绕业务数据的可识别、可见、可协作和安全数据的可操作四大场景,亚马逊云科技提供创新服务和解决方案,助力企业进一步释放数据要素价值,实现创新增长。
识别敏感数据,轻松应对数据合规挑战
为了保护用户的个人隐私,全球各个国家针对数据隐私和安全方面的法律法规越来越多,例如欧盟发布了《通用数据保护条例》(GDPR),美国发布了《美国数据隐私和保护法案》(ADPPA),中国发布了《个人信息保护法》《数据安全法》《数据出境安全评估办法》等等。这些法律法规无一例外都对个人数据和敏感数据的使用提出了具体的要求。
面对这些新规,企业该如何评估什么是个人数据和个人敏感数据?如何在保证数据安全的前提下打破数据孤岛?如何实现统一的数据合规应用?想要解决这些挑战,则需要人、流程和工具相互配合。
为用户的业务和计算负载提供最合适的工具一直是亚马逊云科技的方向和目标,因此亚马逊云科技推出了“敏感数据保护”解决方案(Sensitive Data Protection)。这是一个开源的数据安全及数据隐私云原生解决方案,企业可以在自己账号部署使用。“敏感数据保护”解决方案具备如下的能力:
- 中心化及可视化管理能力。“敏感数据保护”解决方案可以发现多个账号下的数据资产并生成数据目录,进而发现不同业务系统云账号之间的逻辑关联,打破数据孤岛,实现中心化管理。企业还可通过网页应用程序对敏感数据资产进行可视化管理。
- 跨产品自动识别能力。当使用亚马逊云科技多个产品时,“敏感数据保护”解决方案可以跨产品识别不同产品所沉淀的业务数据,自动扫描结构化存储Amazon RDS、对象存储Amazon S3,以及其他数据存储产品。
- 多种方式识别敏感数据。在解决方案中,企业可以通过创建数据目录、使用内置或定制数据识别规则判断敏感数据类型。除此之外,还可以通过机器学习和模式匹配的方式自动识别业务所产生的敏感数据。
“敏感数据保护”解决方案主要帮助企业发现分散的数据以及自动根据法律法规判断数据是否敏感。通过这一解决方案,企业可以加速实现业务数据合规,为下一步释放数据价值铺平道路。
数据解锁可见,打破内部孤岛共治理
虽然数据的安全和合规非常重要,但是如果为了安全和合规而将数据完全封闭,那么对于企业的不同部门来说,则会浪费时间获取其他部门已有的数据,从而导致效率低下,也会造成数据孤岛。因此实现企业内部的数据可见并共享是提高效率的关键,但是在实现的过程中存在诸多挑战。
首当其冲的问题是命名数据方式不同。同一个数据在不同的业务部门和流程环节可能有不同的名称,因此在沟通时就会出现问题。第二个问题是无法获取原始数据。持有数据的部门可能会基于各种原因的考虑,不愿意把原始数据分享给其他部门使用。第三个问题是当数据开放后,数据的使用和传播难于管理。
为了让企业各个部门看见和解锁数据,亚马逊云科技基于以上痛点问题,在去年推出了一项全新的数据管理服务——Amazon DataZone。
Amazon DataZone 可以让企业更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理。借助Amazon DataZone,企业可以使用精细的控制工具管理和治理数据访问权限。更重要的是,Amazon DataZone 使数据开发者、数据科学家、分析师和业务用户轻松访问整个组织的数据,从而更好地发现和使用数据。
与外部共协作,为数据注入创新活力
数据在企业的内部流通打破了内部的数据孤岛。不过有些企业还需要和第三方伙伴一起共享数据或需要获取公共的数据集。多方的数据协作将为行业创新注入活力,企业之间需要产业上下游数据协作来快速创新。
但是企业不可能在牺牲数据安全的情况下让数据流通,数据的协作与隐私安全一直是持久的矛盾。不过,如果企业仅仅提供数据的使用权,但不提供原始数据,让数据“可用不可见”,便能保证数据的安全。
针对多方协作的场景,亚马逊云科技推出了Amazon Clean Rooms ,帮助企业在不需要移动或者暴露原始数据的情况下实现双方数据的匹配、分析和协作,安全地进行数据分析协作。
Amazon Clean Rooms 简单易用,仅仅几分钟便能创建一个Amazon Clean Room。对于数据提供方而言,不仅可以预加密数据对数据进行保护,还可以直接从个人的Amazon S3 提供数据;而数据消费方可以通过设定不同的代码对整个开放的数据进行计算,最后获得一个结果,而非详细的数据。整个过程真正实现了只对数据进行查询和分析,没有移动数据。
更值得一提的是,Amazon Clean Rooms提供密态计算的环境,能够以加密的形态完成数据分析操作,并将分析结果解密后返回,从而在最大程度保障数据安全的同时充分开发数据价值。
除了多方协作,企业有时也需要使用公开数据集,尤其是在生成式AI的时代,企业更需要第三方的数据来协作创新或训练模型。然而获取第三方数据并非易事,无论是寻找合适的数据集还是物理拷贝,这对企业来说都是工作量巨大。
为了让企业更加容易获得市场上公开的数据集,亚马逊云科技推出了Amazon Data Exchange ,能够让企业轻松地在云上寻找、订阅和使用超过 3500 种的第三方数据,并且这些数据覆盖金融、天气、地理、健康医疗等多个行业和领域。
Amazon Data Exchange 支持Amazon S3 注入、查询表接口(query tables)以及API 调用等多种访问方式,让获取公开数据集变得简便容易。例如,在模型训练时,只需将数据集注入到Amazon S3 数据湖,便可以使用数据分析工具进行数据处理,进而开始模型训练。
在安全方面同样有所保障,所有数据在存储和传输时都会被加密。Amazon Data Exchange 也整合了亚马逊云科技的身份和访问控制管理系统(IAM),保证企业能够设定权限并监控实际的访问过程。
操作安全数据,统一管理分析安全日志
在Gartner 发布的2022 年网络安全重点趋势中,整合安全供应商排到了第4 位,说明企业非常重视安全问题,并会使用多个安全供应商全方位保障网络安全。但是,企业拥有不同供应商的安全系统,安全日志格式也不同,对其安全管理带来了不小挑战,所以企业希望整合不同供应商。然而在短时间内整合安全供应商是有挑战和难度的,企业需要高效的工具来解决这一问题。
Amazon Security Lake 是亚马逊云科技构建的安全数据湖,可以自动搜集多云、本地和第三方的安全数据到数据湖中,并存储亚马逊云科技的安全产品(如 Amazon GuardDuty,Amazon SecurityHub)以及第三方乃至线下安全设备的安全日志,统一管理,并用这些日志分析安全事件。
Amazon Security Lake 第一个解决的就是不同供应商的安全日志格式不统一的问题。亚马逊云科技在 2022 年联合 15 家安全行业的头部企业,推出 OCSF 开源协议框架,统一了安全日志格式。有了统一的安全日志格式后,企业就可以有效地管理并使用安全日志,并在出现安全风险后第一时间追溯问题的源头。
除此之外,Amazon Security Lake 使用 Amazon S3 集中存储,充分利用 Amazon S3的存储性能将日志分层管理,提高性价比。
在安全方面,Amazon Security Lake 集成亚马逊云科技的加密服务Amazon KMS,实现自动加密管理。
如今我们已经迈入了数据爆炸的时代。虽然数据的价值被越来越多的企业认可,但仍然面临很多安全方面的挑战。只有真正地确保数据安全,才能最大程度地释放数据背后的价值。亚马逊云科技借助云原生的安全特性和强大的数据分析工具助力企业上云,保障数据的安全和合规,实现数据协同从而为企业保驾护航。亚马逊云科技秉承不断进取、开拓创新的思路与大家共创未来!