过去6个月里,随着OpenAI的生成式文本聊天机器人日渐风靡,该系统使用从网络上提取的数据进行训练的风险也变得愈发明显。
世界各地的数据监管机构正在调查OpenAI如何收集用于训练大型语言模型的数据,它提供的答案的准确性,以及有关使用其生成式文本系统的其他法律问题。在意大利暂时禁止ChatGPT进入该国后,欧洲数据监管机构已经联合起来关注OpenAI。加拿大也在调查这项技术的潜在隐私风险。
在欧洲,《欧盟通用数据保护法案》要求企业和组织证明处理人们个人信息的合法理由,并允许人们访问有关他们的信息,了解他们的信息是如何被使用的。在某些情况下,他们甚至可以要求删除某些类型的数据。人们的个人信息被用于训练数据的方式,一直是欧盟监管机构早期关注的一个领域。
随着人们参与体验聊天机器人,并向它询问有关自己生活和朋友的问题,一系列潜在的问题也随之出现。OpenAI警告称,ChatGPT可能会提供不准确的信息,人们也发现它会编造工作和爱好等信息。它曾编造的虚假报纸文章,甚至让所谓的人类作者都无法分辨这些文章的真实性。它曾发布的虚假声明,让一位法学教授卷入了性骚扰丑闻,还让澳大利亚的一位市长卷入了贿赂丑闻——他正准备以“诽谤罪”进行起诉。
关心数据使用方式的不仅仅是个人。三星公司已禁止员工使用生成式人工智能工具,部分原因是担心数据存储在外部服务器上的方式,以及公司机密最终可能泄露给其他用户的风险。(版权和知识产权是两个不同的问题。)
作为对审查的回应——尤其是来自意大利数据监管机构的审查,在OpenAI对其服务做出改变后,意大利数据监管机构现在允许ChatGPT重新进入该国——OpenAI公司已经引入了新的工具和流程,允许用户对至少部分数据拥有更多的控制权。下面是操作方法。
从ChatGPT中删除你的数据
ChatGPT和GPT-4通过统计方法生成类似人类的答案——在看到数百万个人类作者写的句子示例后,预测哪些单词可能会跟随其他单词。OpenAI一直对其训练大型语言模型所使用的数据保密,因此公司外部没有人确切知道它在这个过程中收集了多少网络数据(包括人们的个人信息)。
OpenAI表示,它的大型语言模型是在三个信息源上进行训练的:从网络上获取的数据,公司从其他地方获得的数据,以及人们通过聊天提供的信息。这可能会涉及有关个人的信息。OpenAI在一篇文章中解释称,“互联网上的大量数据与人有关,所以我们的训练信息确实包含了个人信息。”不过,OpenAI也表示,它正在采取措施减少收集的数据量。
OpenAI现在推出了个人数据删除请求表(Personal Data Removal Request),允许人们(主要是欧洲人,也有日本人)要求从OpenAI系统中删除有关他们的信息。
值得注意的是,该表单主要用于请求从ChatGPT提供给用户的答案中删除信息,而不是从其训练数据中删除信息。它要求你提供你的名字;电子邮件;你所在的国家;你是为自己申请还是代表他人申请(例如律师代表客户提出请求);以及你是否是个公众人物,比如名人。
然后,OpenAI还会要求提供证据,证明其系统提到了你。它要求你提供导致你被提到的“相关提示/指令(prompt)”,以及你被提到的任何截图。表格中写道,“为了能够正确地处理你的请求,我们需要明确的证据,证明该模型对数据主体的了解取决于提示。”它要求你保证细节是正确的,并且你理解OpenAI在任何情况下都不会删除数据。该公司表示,在决定用户的删除请求时,将会平衡“隐私和言论自由”。
数字权利非营利组织Access Now的高级政策分析师Daniel Leufer表示,“OpenAI最近几周所做的改变是可以接受的,但在数据保护方面,它只是在处理最为表面的问题,并未采取任何措施来解决更复杂、更系统的问题,即如何使用人们的数据来训练这些模型。我希望这个问题不会就此消失,特别是在ChatGPT上创建了EDPB工作组之后。”
OpenAI的帮助中心页面还写道,“个人也可能有权访问、更正、限制、删除或转移可能包含在我们的训练信息中的个人信息。”为此,它建议给其数据保护人员发送电子邮件至dsar@openai.com。已经要求OpenAI提供数据的人对其回应并不满意。意大利数据监管机构表示,OpenAI声称目前“在技术上不可能”纠正不准确的信息。
如何删除你的聊天记录
你应该始终对告知ChatGPT的内容保持谨慎,特别是考虑到OpenAI有限的数据删除选项。默认情况下,你与ChatGPT的对话可以被OpenAI用作在未来的大型语言模型中训练数据。这意味着,至少在理论上,这些信息可以被复制,以回答人们未来的问题。4月25日,该公司推出了一个新的设置,允许任何人(无论他们在世界上的哪个地方)停止这个过程。
登录到ChatGPT时,单击屏幕左下角的用户配置文件,单击设置,然后单击数据控制。在这里你可以关闭聊天记录和训练。OpenAI表示,关闭聊天记录意味着你在对话中输入的数据“不会被用来训练和改进我们的模型”。
因此,你在ChatGPT中输入的任何信息,例如关于你自己、你的生活和你的工作的信息,都不应该在OpenAI的大型语言模型的未来迭代中重新出现。OpenAI表示,当聊天记录被关闭时,它将继续保留所有对话30天“以监控滥用”,之后它们将被永久删除。
当你的数据历史记录被关闭时,ChatGPT通过在侧边栏中放置一个按钮来提示你重新打开它,该按钮为你提供了再次启用聊天历史记录的选项。不得不说,这一操作与隐藏在设置菜单中的“关闭”设置形成鲜明对比。