OpenAI最近宣布的定制ChatGPT版本使每个企业更容易以更多的方式使用GenAI,但有时最好不要这样做。大西洋两岸在几周内举行了两次AI安全峰会,对AI的潜在危险提出了质疑,但无论是虚构的杀手机器人的科学威胁,还是关于哪些AI模型可能受到监管的奇怪的具体指导方针,似乎都不会对努力利用现有大量GenAI工具的企业特别有帮助。
对GenAI最强烈的抱怨来自作家和艺术家,他们对自己的作品未经许可被用来训练大型语言模型感到不满。11月初,好莱坞长达数月的编剧和演员罢工达成和解,要求制片厂做出让步,限制AI工具取代人类编剧和表演者的方式,但即使是创意产业以外的企业也需要谨慎使用GenAI,这可能会以令人尴尬的方式适得其反,并可能使它们面临法律诉讼。
许多企业将版权列为一个令人担忧的领域(联邦贸易委员会似乎也同意这一点);提交一份看起来像是从竞争对手那里复制粘贴的商业计划可能会有问题,但这并不是你可能遇到的唯一问题。
对声誉的损害
微软最近与《卫报》合作的经历是一个教科书般的例子,说明了不应该使用具有创造力的AI。《卫报》声称,微软的AI新闻系统自动生成了一份不敏感的民意调查,邀请读者猜测一名女性的死亡,并将其插入新闻故事中间,这导致了这家科技企业造成了“严重的声誉损害”。
但这并不是必应的AI新闻第一次在敏感新闻故事中添加可疑的民意调查,同样的AI工具还创建了其他民意调查,询问拒绝杀死一名后来被枪杀的女性是正确还是错误的决定,在国家公园发现的人类遗骸是否得到了正确的识别,在火灾中失去50所房屋的地区的人们是否真的需要遵循紧急疏散建议,以及读者是否会因为为其他儿童烧伤受害者筹集资金而对两名儿童在火灾中死亡感到“希望和支持”。
由AI驱动的必应聊天中的广告还包括恶意软件的链接,微软的AI工具建议前往渥太华的游客在一家食品银行用餐,突出显示包括拜登总统在内的一些鲜为人知的网站上关于政客的假新闻,并严重混淆了一个新闻故事的细节,以至于它暗示一名女演员袭击了一名体育教练,而实际上被指控虐待一匹马的是这名教练。
与之前像ChatGPT这样的GenAI模型犯下的高调错误不同的是,律师和医疗专业人员在很大程度上至少有机会在继续进行之前检查结果,但这些卫报的民意调查似乎是在微软的资产上发布的,有数百万访问者通过自动化系统发布,无需人工批准。
微软称这项调查是一个错误,并承诺进行调查,但它似乎已经明显违反了该企业自己关于负责任的AI使用的几项原则,例如告知人们他们正在与AI系统交互,以及人与AI交互的指导方针,该企业向Azure OpenAI客户提供的建议告诫称,不要制作“任何主题的内容”,也不要在“最新、事实准确的信息至关重要的情况下”使用它,这可能包括新闻网站。
过度使用AI
更广泛地说,Azure OpenAI的全面透明度说明有助于警告该服务可能会产生不适当或攻击性的内容,以及不相关、虚假或歪曲可信数据的响应,他们列出了几种需要避免的情况——政治竞选和高度敏感的事件,在这些情况下,使用或滥用可能会对人生机会或法律地位产生影响——以及其他需要谨慎的情况,比如医疗、教育、金融和法律等高风险领域,但限制在特定领域的问题不太可能产生更长的、有问题的回答,而不是开放式的、不受限制的问题。
微软拒绝指出它认为GenAI在哪些领域是不合适的,而是提供了一份客户正在取得成功的领域的清单:创建内容、总结或改进语言、代码生成和语义搜索,但该企业的一位发言人确实表示:“在我们的世界里,我们的AI已经变得非常强大,它可以做令人惊叹的事情。然而,至关重要的是要明白,这项技术是一段旅程,有很大的增长和发展空间,这一区别至关重要。”
并不是所有GenAI客户都明白这一点,由GenAI创造的令人困惑和糟糕的内容已经出现在商业环境中,会议传记、博客文章和幻灯片可能听起来令人印象深刻,但被本应更了解情况的经理签署是没有意义的。越来越多的专业作家和安全教育工作者提交了此类内容,并辅之以AI图像,比如手指数量惊人的人。这种空洞的胡言乱语可能会变得令人不安地常见,企业有责任保持警惕,因为声誉岌岌可危。
麻木不仁的评论在内部也同样不合适,民意调查和测验让冗长的会议和团队聊天变得活跃起来,让富有创造力的AI根据人们一直在谈论的东西来创造它们是很有诱惑力的,例如,如果有人分享了家庭疾病或丢失宠物的细节,这可能会出现严重的错误。
行业情报平台GlobalData负责颠覆性技术的副项目经理Saurabh Daga指出:“GenAI通常不适合同理心、道德判断和对人类细微差别的深入理解至关重要的环境。”他列出的敏感领域清单类似于微软的指导方针:“高风险的决策可能会产生重大的法律、财务或健康相关后果,可能不适合AI。”
在多模式模型上做了更多的工作之前,重要的是要谨慎对待在任何情况下混合文本和图像的GenAI,因为错误的可能会将完全可以接受的图片变成令人反感的东西,而且图像生成模型很容易假设所有护士都是女性,所有CEO都是男性。
戴尔技术企业高级AI战略副总裁马特·贝克警告说:“尤其是GenAI正在放大以前存在但没有得到全心全意解决的问题。”戴尔技术企业提供服务,帮助客户使用Microsoft 365 Copilot或Llama2等开放获取模型构建AI系统。“以流程和工作流程为例,在人力资源和招聘等领域,算法偏差可能成为一个因素。企业需要诚实地审视他们的卫生状况、优先事项和数据敏感性,以确保他们将GenAI工具插入到他们获得最大回报和将风险降至最低的领域。”
假设AI总是正确的
尽管GenAI工具令人印象深刻,但它们本质上是概率论的,这意味着他们经常会犯错,危险在于他们产生的东西可能是不准确的、不公平的或冒犯的——但措辞如此自信和令人信服,以至于它溜走了。
关键是不要期待一个你可以立即使用的结果,并警惕地认识到GenAI可能是有用的错误的方式,把它当作一场头脑风暴式的讨论,激发新的想法,而不是什么能为你带来完美想法的东西。
这就是为什么微软的大多数GenAI工具都采用了Copilot,而不是Autopilot,首席执行官萨蒂亚·纳德拉在今年夏天的Inspire大会上表示:“这是为了让人类进入循环,并以这样一种方式设计它,即人类始终控制着一名强大的副驾驶,并帮助他们完成每项任务。”学会尝试提示以获得更好的结果是采用GenAI的关键部分,因此像Copilot Lab这样的工具可以帮助员工获得这些技能。
同样,与其试图自动化流程,不如为你自己的GenAI工具创建工作流,以鼓励员工试验和评估AI产生的结果。记住,审查AI建议的人将拥有关于情况的哪些信息 - 以及他们有什么动机来审查结果并检查任何引用的来源,而不是通过接受第一个选项来节省时间,而不是在没有确保其准确性和适当性的情况下接受第一个选项。
用户需要足够好地理解他们从GenAI那里接受的建议和决定,以便知道后果可能是什么,并向其他人证明这些建议和决定是合理的。英国信息专员办公室警告说:“如果你的企业不解释AI辅助的决定,它可能面临监管行动、声誉损害和公众的脱离。”
每次提供多种选择,并展示如何解释建议,以及使用提示来指示大语言模型解释为什么它会给出特定的回答,这都会有所帮助。除了让富有创造力的AI引用关键信息的来源外,还应考虑如何突出显示需要仔细检查的重要元素,如日期、统计数据、政策或所依赖的先例。
但归根结底,这是为了建立一种文化,在这种文化中,GenAI被视为一种有用的工具,仍然需要得到验证,而不是取代人类的创造力或判断力。
Daga指出:“GenAI或任何其他形式的AI应该被用来增强人类的决策能力,而不是在其局限性可能造成伤害的环境中取代它。人类审查员应该接受培训,对AI的输出进行批判性评估,而不仅仅是表面上的接受。”
除了一个包括人工审查、鼓励对AI建议进行实验和彻底评估的过程之外,还需要设置护栏,以阻止任务在不合适的时候完全自动化。“例如,AI可能会生成企业的新闻发布会,但只有人类编辑才能批准与选定的记者和出版物分享内容。“他补充道。
无论是探索新的代码库、填充样板代码、自动完成函数,还是生成单元测试,GenAI当然也可以使开发人员更有效率,你可以利用这种额外的生产力,但仍然可以决定在没有人工审查的情况下不会将代码发布到生产环境中。
企业对自己选择的后果负责,包括在不合适的领域部署AI,科罗拉多州咨询企业Sagable的全球首席技术官兼创始人安迪·曼表示。“客户不会仅仅因为‘这是我们AI的错’就让你摆脱数据泄露的责任。”
隐藏的AI
确保负责任地使用该系统至关重要,无论是由员工还是客户使用,而透明度是其中的重要组成部分。令人尴尬的是,许多出版物使用AI生成的内容,这些内容很容易被发现,因为它的质量很差,但你应该清楚,即使是高质量的内容也是由AI系统产生的,无论是内部会议摘要、营销信息,还是聊天机器人的回应。为聊天机器人等自动化系统提供“出口”,允许用户将问题上报给真人。
Daga说:“客户应该可以选择退出与GenAI的互动,特别是在敏感领域。”
假设AI可以解决所有问题
随着GenAI在商业中的使用增加,人们也意识到,人们需要使用自己的判断来判断AI所暗示的东西。在去年的DevOps自动化状况报告中,10名IT员工中有8人这样认为,在2023年的DevOps自动化和AI研究中,这一比例高达90%多一点。
Mann说,这种谨慎是合理的,特别是在可用于生成可预测、期望和可验证的输出的特定领域培训数据有限的情况下,例如在IT运营中,因为培训数据不足,它容易产生不准确的结果。
他警告说:“对于任何处理新问题和未知原因的用例来说,缺少或没有记录的知识,GenAI的意义都会降低。如果未公开的人类部落知识是你唯一的潜在投入,那么训练大语言模型是不可能的。”
不过,他确实看到了将GenAI作为助手的机会。他说:“它可以成为一名顾问或积极的专家,通过训练引擎来了解跨已定义学科和知识存储的‘已知良好’IT操作是什么样子,并识别已知问题、诊断已知原因、确定已知的低效,并以已知的补救措施进行响应。”但是,尽管一些看似新的IT问题可以通过熟悉的流程和解决方案来解决,但事先还不清楚哪些是新的。
“我们知道AI世代几乎从来不会说自己不知道什么,相反,当你试图让它解决‘未知未知’时,它会抛出误导性的、虚假的、错误的、甚至恶意的结果。”曼恩说。
为人类创造更多的工作
当然,GenAI产生的内容可能会有所帮助,但因为它很容易创建,它最终也会为那些需要审查它并根据它采取行动的人做更多的工作。
小说杂志报告说,收到了如此多低质量的AI编写的故事,以至于这实际上是一次拒绝服务攻击。出版商一直在试验使用AI来复制编辑手稿,但作家和编辑都报告说,建议的编辑往往没有帮助、无关,或者只是纯粹的错误——首先,会遇到技术术语、行文风格、复杂的句子结构以及正确但不寻常的用字方面的问题。当你评估GenAI实际上能够在哪些领域做出贡献时,要诚实。
采用任何AI工具的一个关键部分是有一个处理错误的过程,而不是每次单独纠正它们。不要假设GenAI会从错误中学习,或者每次都会给你相同的结果。如果这很重要,你需要使用即时工程和过滤器来约束最重要领域的结果。
也要准备好在你没有计划的领域和过程中使用GenAI,在那里它可能不那么准确。再说一次,透明度是关键。员工需要知道企业关于他们何时可以使用GenAI以及如何披露他们正在使用它的政策。你可能还想像在企业聊天系统中一样,在审计和eDiscovery中包含GenAI使用。
企业可能需要更紧迫地开始制定这些政策。在TECHnanalysis Research于2023年春季调查的1000家美国企业中,88%的企业已经在使用GenAI,但在这些早期采用者中,只有7%有正式的政策。
在IDC最近一项关于AI机会的研究中,超过25%的商业领袖表示,缺乏AI治理和风险管理是实施和扩展这项技术的挑战。最初的担忧是企业数据的保密性,但声誉损害也应该是优先事项。此外,超过一半的人称缺乏熟练工人是他们最大的障碍,这通常指的是开发人员和数据工程师,但技术含量较低的商业用户也将需要技能,以仔细构建他们向AI工具提出的问题,并评估和验证结果。