文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Jeddak-DPSQL 首次开源!基于差分隐私的 SQL 代理保护能力

2024-11-30 13:10

关注

1. 背景

火山引擎对于用户敏感数据尤为重视,在火山引擎提供的数据分析产品中,广泛采用差分隐私技术对用户敏感信息进行保护。此类数据产品通常构建于 ClickHouse 等数据引擎之上,以 SQL 查询方式来执行计算逻辑,且查询逻辑往往较为复杂,因此对差分隐私的应用提出了以下要求:

针对以上需求,火山引擎安全研究团队开发了 Jeddak-DPSQL:一种基于差分隐私的 SQL 代理工具。Jeddak-DPSQL 能够兼容多种数据引擎和SQL方言,内嵌多种差分噪声扰动算法,具备隐私预算管理能力,并且能够与底层数据引擎结合,在数据分析师无感的情况下,对 SQL 语句进行自动化分析和结果加噪处理。作为数据安全和隐私合规治理的标准能力之一,Jeddak-DPSQL 已经在抖音集团相关业务中得到了普遍应用与验证。

在实际解决公司内部面临的问题风险后,我们决定对 Jeddak-DPSQL 进行开源,希望能够为同样面临该类问题的企业和个人提供一定参考和帮助,同时也希望能够有更多的外部开发者能够一起对该开源项目进行共建,完善 Jeddak-DPSQL 产品功能,共同构建更完备的应用生态。

2. 全面了解 Jeddak-DPSQL

2.1 Jeddak-DPSQL 介绍

Jeddak-DPSQL 采用中心化差分隐私 (Centralized Differential Privacy,简称 CDP,适用于数据管理者可信的场景) 模式,以中间件的形式接收 SQL 统计查询请求,返回满足差分隐私的查询结果。一个典型的查询请求处理流程如下:

2.2 Jeddak-DPSQL 解决的问题

案例背景

假设有一个数据库 business,存储用户消费数据,使用 clickhouse 引擎,其中一个表 user 存储用户信息,表中存在以下列:uid,name,age,sex,city,代表用户id、姓名、年龄、性别、城市。

查询需求

我们要查询用户数量和平均年龄的城市分布,使用 SQL 语句 1:

SELECT  COUNT(*) AS cnt,AVG(age) as agev, city
FROM business.user
group by city

风险

如果不应用隐私保护技术,可能面临差分攻击的风险,比如攻击者通过某渠道得知张三的 uid 为 803719,构造下面的 SQL 语句 2:

SELECT  COUNT(*) AS cnt,AVG(age) as agev, city
FROM business.user
WHERE uid != 803719
group by city

通过执行上面的 SQL 语句1和 SQL 语句2,可分别得到两个查询结果:

那么就可以通过比较两次查询结果得知张三所在的城市是北京,年龄大约 61 岁(120008x49.3276 = 5919706.62,120007x49.3275 = 5919645.29,5919706.62 - 5919645.29 约等于 61)

以上是一个简单的例子,现实场景中,攻击者可能通过背景知识构造更多样、更复杂的查询语句达到窃取隐私的目的。

因此,在上述 SQL 查询场景下,可以通过接入 Jeddak-DPSQL 对 SQL 进行分析和重写,最终执行重写后的 SQL 能够保证返回给使用者的数据满足差分隐私要求,进而达到对个人隐私保护的效果。

2.3 Jeddak-DPSQL 在火山引擎的应用验证

  1. Jeddak-DPSQL已接入火山引擎的增长分析(finder)、A/B 测试等产品,间接服务300+外部客户,日均处理查询请求 200+。Jeddak-DPSQL服务不仅帮助业务满足了隐私保护和业务合规的需求,同时也成为创新型隐私计算技术应用的典范案例。
  2. 开放隐私计算 OpenMPC 对外公布了“隐私计算 2021 年度优秀应用案例 TOP 10”。火山引擎 云安全凭借“融合 差分隐私 的火山引擎 DPSQL 服务”案例,成功入选 TOP 10。

3. 如何使用 Jeddak-DPSQL

git 开源项目地址: https://github.com/bytedance/Jeddak-DPSQL

3.1 下载

git clone https://github.com/bytedance/Jeddak-DPSQL

3.2 快速部署

完成 Jeddak-DPSQL 下载后,按照 README 中的部署引导部分完成服务部署,整个部署过程包括以下步骤:

3.3 正式使用

完成 Jeddak-DPSQL 部署后,按照 README 中的快速开始部分可以进行功能体验,整个过程如下:

    1. 生成 metadata

   2. 启动dpsql服务后, 调用接口 /api/v1/metadata/generate,生成metadata,可参考:

def meta_generate():
  args = {
      "db_config": {
          "host": ,
          "database": ,
          "username": ,
          "password": 
      },
      "table_name": "us_accidents_dec21_updated",
      "db_type": db_type
  }
  route_path = "/api/v1/metadata/generate"# local service,  host:127.0.0.1, port:5000url = "http://%s:%s/%s" % (host, port, route_path)
  headers = {"content-type": "application/json"}
  r = requests.post(url, jsnotallow=args, headers=headers)

if __name__ == '__main__':
   meta_generate()
  1. 确认metadata 生成完成

  2. 调用 /api/v1/metadata/get 接口,确认 metadata 生成完成

def meta_get():
    args = {
        "prefix": ,
        "db_name": ,
        "table_name": "us_accidents_dec21_updated"
    }
    route_path = "/api/v1/metadata/get"# local service,  host:127.0.0.1, port:5000url = "http://%s:%s/%s" % (host, port, route_path)
    headers = {"content-type": "application/json"}
    r =  requests.get(url, jsnotallow=args, headers=headers)
    print(r.text)
def query_sql_noise(sql, data_source):
      key = {
          "sql": sql,
          "dbconfig": {
              "reader": data_source,
              "host": ,
              "database": ,
              "port": 
          },
          "queryconfig": {
             "traceid": "traceid",
          }
      }
      route_path = "/api/v1/query"url = "http://%s:%s/%s" % (host, port, route_path)
      headers = {"content-type": "application/json"}
      r = requests.post(url, jsnotallow=key, headers=headers)
      return res
if __name__ == "__main__":
      sql = "select count(severityc) from menu_page group by severity"
      section = "hivereader"
      res = query_sql_noise(sql, section)
      print(res)

更多接口使用方式可以参考项目 README 中的 API Documentation 部分

4. 后续计划

由于当前是 Jeddak-DPSQL 的首个开源版本,因此还存在很多不完善的地方,希望大家能够多多谅解。Jeddak-DPSQL 计划进行长期维护,欢迎大家使用,也希望有更多的外部开发者能够一起对该开源项目进行共建,完善产品功能,构建更完备的应用生态。

5. 关于安全研究

火山引擎安全研究部门的愿景是创新突破前沿安全理论技术,赋能数字经济。部门当前以数据安全中心私有化单品-可信隐私计算产品 Jeddak 为载体,从可信计算、联邦学习、多方安全计算、差分隐私、密文计算、共识计算等方向着手,开展隐私计算技术的前沿研究和应用探索。基于这些领域最新前沿理论技术,创新研发、突破瓶颈,实现数据全生命周期安全与隐私保护,以及可信隐私计算等应用服务落地:赋能业务、保驾护航;更进一步打破数据孤岛,推动数据多源融合与流通交易,发挥数据价值。

来源:字节跳动技术团队内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯