本文旨在帮助这些消费者建立有关人工智能隐私功能的更深入的知识库。此外,它还为企业主和领导者提供了指南,帮助他们更好地了解客户的担忧,以及如何在不牺牲功能的情况下保护隐私的方式使用人工智能。
人工智能和隐私问题
很少尊重版权和知识产权法
人工智能模型从网络的各个角落提取训练数据。不幸的是,许多人工智能供应商在未经他人同意的情况下使用他人受版权保护的艺术品、内容或其他知识产权时,要么没有意识到,要么不在乎。
随着模型被训练、再训练和使用这些数据进行微调,这个问题变得越来越严重,如今的许多人工智能模型都非常复杂,甚至它们的构建者也无法自信地说出,正在使用哪些数据以及谁可以访问这些数据。
未经授权合并用户数据
当人工智能模型用户以查询的形式输入自己的数据时,这些数据有可能成为模型未来训练数据集的一部分。当这种情况发生时,这些数据可能作为输出显示给其他用户的查询,如果用户向系统输入了敏感数据,这是一个特别大的问题。
监管机构和保障措施有限
一些国家和监管机构正在制定人工智能法规和安全使用政策,但目前尚无总体标准来要求人工智能供应商,对其构建和使用人工智能工具的方式负责。
许多人工智能供应商已经因侵犯知识产权,以及不透明的培训和数据收集流程而受到批评。但目前在大多数情况下,人工智能供应商可以在不受干扰的情况下,决定自己的数据存储、网络安全和用户规则。
未经授权使用生物识别数据
越来越多的个人设备使用面部识别、指纹、语音识别和其他生物识别数据来取代更传统的身份验证形式。公共监控设备也经常使用人工智能扫描生物特征数据,以便更快地识别个人。
虽然这些新的生物识别安全工具非常方便,但对于人工智能企业在收集到这些数据后如何使用这些数据的监管有限。在许多情况下,个人甚至不知道他们的生物特征数据已经被收集,更不用说这些数据被存储并用于其他目的了。
隐蔽元数据收集实践
当用户与广告、社交媒体视频或几乎任何网络资产进行交互时,来自该交互的元数据以及用户的搜索历史和兴趣可以被存储起来,以便将来进行更精确的内容定位。
这种元数据收集方法已经持续多年,但在人工智能的帮助下,可以大规模收集和解释更多数据,使科技企业有可能在用户不知道其工作原理的情况下,进一步针对他们的信息。虽然大多数用户网站都有提及这些数据收集做法的政策,但只是在其他政策文本中简短提及,因此大多数用户没有意识到他们已经同意了什么,并将自己和移动设备上的所有内容置于审查之下。
人工智能模型的内置安全功能有限
虽然一些人工智能供应商可能选择构建基线网络安全功能和保护,但许多人工智能模型没有本地网络安全保障措施。这使得未经授权的用户和恶意行为者,非常容易访问和使用其他用户的数据,包括个人身份信息(PII)。
延长数据存储周期
很少有人工智能供应商能够公开他们存储用户数据的时间、地点和原因,而透明的供应商通常会存储很长一段时间的数据。
例如,OpenAI的政策称,它可以将用户输入和输出数据存储长达30天,以识别滥用行为。然而,目前尚不清楚该企业何时或如何在用户不知情的情况下更仔细地查看他们的个人数据。
隐私和人工智能数据的收集
网络抓取和网络爬行
由于它不需要特殊权限,并且使供应商能够收集大量不同的数据,因此人工智能工具通常依赖于网络抓取和网络爬行来构建训练数据集。
内容是从互联网上的公开来源中抓取的,包括第三方网站、维基百科、数字图书馆等。近年来,用户元数据也成为通过网络抓取和爬行收集的大部分内容。这些元数据通常来自营销和广告数据集,以及包含目标受众和他们最关注的内容的网站。
人工智能模型中的用户查询
当用户将他们的问题或其他数据输入人工智能模型时,大多数人工智能模型都会将该数据存储至少几天。虽然这些数据可能永远不会用于其他用途,但事实证明,许多人工智能工具不仅会收集这些数据,还会保留这些数据以供未来的培训使用。
生物识别技术
监控设备,包括安全摄像头、面部和指纹扫描仪以及检测人类声音的麦克风,都可以用来收集生物识别数据,并在人类不知情或未经同意的情况下识别其身份。
许多企业在使用此类技术时需要保持多大的透明度的规定越来越严格。但在大多数情况下,他们可以收集、存储和使用这些数据,而无需征求客户的许可。
物联网传感器和设备
物联网(IoT)传感器和边缘计算系统收集大量实时数据,并在附近处理这些数据,以完成更大、更快的计算任务。人工智能软件通常利用物联网系统的数据库,并通过数据学习、数据摄取、安全物联网协议和网关以及api等方法收集相关数据。
API
API为用户提供了与不同类型商业软件的接口,以便他们可以轻松收集并集成不同类型的数据,以进行人工智能分析和训练。通过正确的API和设置,用户可以从CRM、数据库和数据仓库以及基于云的系统和本地系统收集数据。
公共记录
无论记录是否数字化,公共记录通常都会被收集并纳入人工智能训练集中。有关上市企业、当前和历史事件、犯罪和移民记录以及其他公共信息的信息无需事先授权即可收集。
用户调查和问卷
尽管这种数据收集方法比较过时,但使用调查和问卷仍然是人工智能供应商从用户那里收集数据的可靠方法。
用户可以回答关于他们最感兴趣的内容、所需要帮助的内容、以及最近对产品或服务的体验如何,或者任何其他问题,这些问题可以让人工智能更好地了解如何在未来与该人进行个性化互动。
人工智能和隐私问题的解决方案
借助一些最佳实践、工具和其他资源,企业可以有效地使用人工智能解决方案,而无需牺牲用户隐私。为了在人工智能使用的各个阶段保护最敏感的数据,请遵循以下提示:
- 为人工智能制定适当的使用政策:内部用户应该知道他们可以使用哪些数据,以及在使用人工智能工具时,应该如何以及何时使用这些数据,这对于处理敏感客户数据的企业尤其重要。
- 投资数据治理和安全工具:保护人工智能工具和其他攻击面的一些最佳解决方案,包括扩展检测和响应(XDR)、数据丢失防护以及威胁情报和监控软件。还有许多特定于数据治理的工具,可以帮助保护数据并确保所有数据的使用均符合相关法规。
- 阅读细则:人工智能供应商通常会提供某种文档,涵盖其产品的工作原理以及培训的基础知识。仔细阅读这些文件,找出任何危险信号,如果有什么你不确定的,或者在他们的政策文件中有不清楚的地方,联系他们的代表来澄清。
- 仅使用非敏感数据:作为一般规则,不要在任何人工智能工具中输入企业或客户最敏感的数据,即使它是一个定制或微调的感觉私密的解决方案。如果想要追求涉及敏感数据的特定用例,请研究是否有一种方法可以使用数字孪生、数据匿名化或合成数据安全地完成操作。
总结
人工智能工具为企业和日常消费者提供了各种新的便利,从任务自动化到引导式问答,再到产品设计和编程。但尽管这些工具可以简化我们的生活,但它们也存在侵犯个人隐私的风险,从而损害供应商声誉和消费者信任、网络安全和监管合规性。
以负责任的方式使用人工智能来保护用户隐私需要付出额外的努力,但当考虑到隐私侵犯会如何影响企业的公众形象时,这是非常值得的。尤其是随着这项技术的成熟,并在我们的日常生活中变得更加普遍,遵循人工智能法律的通过并开发更具体的、符合企业文化和客户隐私期望的人工智能,使用最佳实践将变得至关重要。