文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

火山引擎开源基于差分隐私的SQL代理工具Jeddak-DPSQL

2024-11-30 13:19

关注

据悉,火山引擎对于用户敏感数据尤为重视,在火山引擎提供的数据分析产品中,广泛采用差分隐私技术对用户敏感信息进行保护。此类数据产品通常构建于 ClickHouse 等数据引擎之上,以 SQL 查询方式来执行计算逻辑,且查询逻辑往往较为复杂,因此对差分隐私的应用提出了以下要求:

零改造、零感知:最大程度避免影响业务现有查询方式,最好做到业务零感知、零改造;

良好、灵活的适配性:能够适配不同数据引擎的查询语法,以及能够处理包含多层嵌套、多重计算、多表连接等情形的复杂 SQL 语句;

安全性与可用性平衡:能够根据业务数据质量要求,计算合理的隐私预算,在安全性和数据可用性之间保持平衡;

为更好解决数据安全和隐私合规治理相关问题,火山引擎安全研究团队进行了产品调研,目前市面上在SQL查询场景下加入差分隐私能力的产品,发现这些产品大多都没有提供SQL 的自动化分析能力,需主动调用 API 或是在 SQL 中调用 UDF 来引入差分隐私能力,接入成本较高。其中OpenDP产品限定了输入 SQL 的方言,仅支持 SQL 92标准,难以在 Hive、ClickHouse 等主流数仓引擎中透明应用。

同时,火山引擎安全研究团队也注意到云服务厂商在To B场景下会提供多款数据分析产品,部分产品的模式面临泄漏用户隐私、法律合规的风险,该类产品通常是通过数据库引擎使用面向实时分析的 clickhouse,计算逻辑用SQL查询的方式执行,因此考虑结合差分隐私技术提供隐私保护的SQL查询能力。

基于上述挑战,火山引擎安全研究团队自主研发了Jeddak-DPSQL ,希望能够为同样面临该类问题的企业和个人提供一定参考和帮助,同时也希望能够有更多的外部开发者能够一起对该开源项目进行共建,完善 Jeddak-DPSQL 产品功能,共同构建更完备的应用生态。

据了解,Jeddak-DPSQL 能够兼容多种数据引擎和SQL方言,内嵌多种差分噪声扰动算法,具备隐私预算管理能力,并且能够与底层数据引擎结合,在数据分析师无感的情况下,对 SQL 语句进行自动化分析和结果加噪处理。同时,Jeddak-DPSQL 已经在抖音集团相关业务中得到了普遍应用与验证。

一、全面了解 Jeddak-DPSQL

1、 Jeddak-DPSQL介绍

Jeddak-DPSQL采用中心化差分隐私(Centralized Differential Privacy,简称CDP,适用于数据管理者可信的场景)模式,以中间件的形式接收SQL统计查询请求,返回满足差分隐私的查询结果。一个典型的查询请求处理流程如下:

●首先,核心服务接受客户提交的SQL查询语句,对该语句进行解析和重写,以便于计算隐私噪声(如将AVG计算改为SUM/COUNT);

●然后,核心服务调用元数据管理服务,计算重写后的SQL查询所对应的数据表敏感度,同时在数据库上执行重写后的SQL查询,得到原始的查询结果;

●最后,核心服务调用隐私预算管理服务得到为该查询分配的隐私预算,并结合敏感度在原始的查询结果中添加噪声并返回。

2、 Jeddak-DPSQL解决的问题

案例背景

假设有一个数据库 business,存储用户消费数据,使用 clickhouse 引擎,其中一个表 user 存储用户信息,表中存在以下列:uid,name,age,sex,city,代表用户id、姓名、年龄、性别、城市。

查询需求

假设要查询用户数量和平均年龄的城市分布,使用 SQL 语句 1:

风险

如果不应用隐私保护技术,可能面临差分攻击的风险,比如攻击者通过某渠道得知张三的 uid 为 803719,构造下面的 SQL 语句 2:

通过执行上面的 SQL语句1 和 SQL 语句2,可分别得到两个查询结果:

那么就可以通过比较两次查询结果得知张三所在的城市是北京,年龄大约 61 岁(120008*49.3276 = 5919706.62,120007*49.3275 = 5919645.29,5919706.62 - 5919645.29 约等于 61)

以上是一个简单的例子,现实场景中,攻击者可能通过背景知识构造更多样、更复杂的查询语句达到窃取隐私的目的。

因此,在上述SQL查询场景下,可以通过接入Jeddak-DPSQL对SQL进行分析和重写,最终执行重写后的SQL能够保证返回给使用者的数据满足差分隐私要求,进而达到对个人隐私保护的效果。

3、 Jeddak-DPSQL在火山引擎的应用验证

1.Jeddak-DPSQL已接入火山引擎的增长分析(finder)、A/B 测试等产品,间接服务300+外部客户,日均处理查询请求 200+。Jeddak-DPSQL服务不仅帮助业务满足了隐私保护和业务合规的需求,同时也成为创新型隐私计算技术应用的典范案例。

2.开放隐私计算OpenMPC对外公布了“隐私计算2021年度优秀应用案例TOP10”。火山引擎云安全凭借“融合差分隐私的火山引擎DPSQL服务”案例,成功入选TOP10。

二、如何使用Jeddak-DPSQL

GitHub 开源项目地址:https://github.com/bytedance/Jeddak-DPSQL

1. 下载

2. 快速部署

完成Jeddak-DPSQL下载后,按照README中的部署引导部分完成服务部署,整个部署过程包括以下步骤:

●服务依赖包安装:进入项目根目录,使用pip install -r requirements.txt安装服务所需完整pip包

●MetaData存储准备:在使用DPSQL时,需要维护源数据表的MetaData信息,为后续加噪计算敏感度作准备。Jeddak-DPSQL使用Mysql对相应元数据信息进行存储,因此需要用户提前在自己的Mysql数据库中创建相应的表

●隐私预算消耗存储准备:使用Jeddak-DPSQL系统过程,可以记录对表级别的数据查询时的隐私预算消耗。主要通过Mysql进行记录,因此需要用户提前在自己的Mysql数据库中创建相应的表

●数据库连接配置:Jeddak-DPSQL中使用数据库主要有Mysql和Redis,因此需要对这两个数据库连接地址进行配置

●服务启动:完成上述配置后可以在项目根目录运行bootstrap.sh脚本启动服务

3. 正式使用

完成Jeddak-DPSQL部署后,按照README中的快速开始部分可以进行功能体验,整个过程如下:

●选择要测试的数据源(Hive或ClickHouse),导入要进行查询测试的原始数据集

●初始化metadata和隐私预算

○生成 metadata

启动dpsql服务后, 调用接口 /api/v1/metadata/generate,生成metadata,可参考:

○确认metadata 生成完成

调用 /api/v1/metadata/get 接口,确认 metadata 生成完成

●调用隐私保护查询接口,获得经过差分隐私保护的查询结果

更多接口使用方式可以参考项目README中的API Documentation部分。

三、后续计划

火山引擎安全研究部门相关负责人表示,Jeddak-DPSQL会长期维护,欢迎大家使用。他也指出,近期开源的Jeddak-DPSQL是首个版本,因此还存在很多不完善的地方,也希望有更多的外部开发者能够一起对该开源项目进行共建,完善产品功能,构建更完备的应用生态。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯