OpenAI最近发布了自定义版本的ChatGPT,允许各家组织更轻松地以灵活方式使用生成式AI——但辩证法告诉我们,不存在只有积极作用的事物。大西洋两岸已经连续数周举行两场AI安全峰会,这也引发人们对于AI潜在危害的担忧。但无论是科幻小说中杀手机器人的暴力威胁,还是关于AI模型应当受到何种监管指导的具体讨论,其实都只能算是老生常谈。换言之,这一切并不足以帮助那些想要大规模应用生成式AI工具的组织找到合理的落地路径。
目前,对生成式AI最大的反对声音来自作家和艺术家群体,他们对自己的作品在未经许可的情况下被用于训练大语言模型(LLM)而深感不满。今年11月初,好莱坞就爆发了长达数月的编剧与演员罢工活动,要求制片厂做出让步、限制AI工具取代人类编剧和演员的运营方式。但即使是在创意产业之外,其他组织也需要谨慎使用生成式AI。这不只是为了避免令人尴尬的反而效果,更是为了消解潜在的法律诉讼。
不少企业将版权视为值得关注的重要领域(联邦贸易委员会似乎也有此意),意识到直接使用那种由AI“照搬”自竞争对手的商业计划很可能惹出麻烦。但这绝不是生成式AI给我们闹出的唯一争议。
警惕商业声誉受损
微软最近与《卫报》之间的矛盾就堪称教科书级案例,《卫报》方面表示这家科技巨头的AI新闻系统自动生成了一项十分冷血的民意调查,邀请读者猜测一位女性是否会死亡,并将其插入到新闻报道当中,因而给报社造成“严重的声誉损害”。如果要选出近期最需要避免的生成式AI用例,此事显然将榜上有名。
而且这已经不是Bing的AI新闻服务第一次在敏感报道中添加存在争议的民意调查。同一款AI工具还生成过其他调查,询问读者在案件场景下是否同样会开枪射杀某位女性、在国家公园发现的人体遗骸身份验证是否属实,某处50所房屋因火灾而被毁的地区是否应当执行紧急疏散建议,以及是否支持一场本意为被烧伤儿童募捐、却引发火灾并导致两名儿童死亡的活动。
AI驱动的Bing Chat所发布的广告甚至包含恶意软件链接。这款微软推出的AI工具建议前往渥太华的游客前往“食品银行”(即接济当地穷人、发放食品的慈善组织)吃饭,高亮显示来自无名小站关于拜登总统等政客的假新闻,甚至严重混淆新闻故事中的具体情节。例如,它暗示某位女演员袭击了一位体育教练,但实际情况是该教练被指控虐待了一匹马。
与ChatGPT等生成式AI模型种种匪夷所思的神奇操作相比,律师和医疗专业人员在大多数情况下至少还有机会认真检查一下生成结果。而粗暴插入至《卫报》报道的民意调查似乎完全是由自动化系统在微软资产之上直接发布,不仅直接面向数百万读者、而且未经任何人工核准。
微软称此次民意调查纯属意外失误,并承诺开展调查。但从行动上看,微软明显违反了该公司自己提出的负责任AI使用原则,例如应告知人们正在与AI系统交互、以及严格遵循人机交互方针等。微软曾向Azure OpenAI客户反复强调不要制作“任何主题性内容”或者“在最新、要求信息严谨准确”(当然也包括新闻网站)等场合下使用AI,但他们自己根本就没做到。
注意AI的过度使用
总的来讲,Azure OpenAI的明确提示已经证明,该服务有可能生成不当、或者令人反感的内容,乃至不相关、虚假或歪曲事件原貌的观点。微软列出了几种需要注意避免的情况——包括政治活动和高度敏感的事件,特别是过度使用/滥用时可能影响生存机会/法律立场的各类谨慎情形,例如医疗保健、教育、金融及法律领域的高风险领域。但这些仅限于特定领域的问题往往内容有限、相应的答案也比较短小简单,不太可能覆盖那些开放式、无限的提问形式。
微软拒绝透露任何他们认为不适合应用生成式AI技术的领域,而是提供了一系列他们认为客户正在取得成功的领域,包括创建内容、总结或改进语言表达、代码生成以及语义搜索。但该公司发言人坦言:“我们正生活在一个AI愈发强大的世界,它能做到一些令人惊奇的事情。然而,最重要的是意识到这项技术需要发展过程,必须给予它充分的成长和发展空间。明确这一点非常重要。”
但并不是所有生成式AI的客户都清楚这一点。由生成式AI输出的、内容莫名其妙且文笔荒诞诡异的内容已经出现在商业环境当中。如果是会议纪要、博客文章或者内部场合的演示文稿还好,但对于正式商业文书明显还远远不足。越来越多的专业作家和安全教育工作者开始直接使用此类内容,甚至还配上了AI生成的图像——从那数量不一的手指头就能看出端倪。这种愚蠢的胡言乱语未来可能变得更加普遍、令人不安,而企业必须对由此产生的声誉威胁保持警惕。
另外,哪怕是不那么敏感的内容也有可能引发问题。民意调查和小测验能让漫长的会议和团队沟通变得不那么平淡,而生成式AI正是根据对话内容创建这些素材的高效选项。但如果有人在其中提到亲友患病或者宠物离世之类的具体信息,AI就可能搞出极为尴尬的闹剧。
行业情报平台GlobalData颠覆性技术项目副经理Saurabh Daga就强调,“生成式AI往往不具备同理心、道德判断或者对人类之间细微差别的理解,因此在这类环境中表现很差。”他列出的敏感领域也与微软的指导方针较为相似:“高风险决策,特别是那些一旦出错可能产生重大法律、财务或健康相关后果的场合,最好不要使用AI。”
另外,在使用多模态模型处理各种事务之前,首先要对这种杂糅了文本与图像的生成AI工具保持谨慎,因为错误的很可能将本来很好的内容转化成令人反感的图片。另外,图像生成模型很容量假定所有护士都是女性,而所有企业高管都是男性。
戴尔科技集团AI战略高级副总裁Matt Baker警告称,“生成式AI尤其会放大那些以往存在,但却没有得到认真解决的问题。以流程管理为例,算法偏见很可能对人力资源和招聘工作产生影响。组织需要坦诚审视自己的数据卫生、优先级排序和敏感性问题,确保让生成式AI工具产生最大回报、并将风险控制在最低水平。”
别以为AI永远是对的
尽管生成式AI工具拥有令人印象深刻的表现,但其本质仍然是一种概率论。也就是说它们经常会犯错,而危险就在于它们给出的结果可能不准确、不公平或者令人反感,但又因为其措辞过于自信且有说服力,而导致错误常常被人们忽视。
问题的关键,就是别指望能得到可以拿来即用的结果,并意识到生成式AI并不可靠。最好是将其视为激发新思路的灵感来源,而非已经成熟的完美结论。
正因为如此,微软在其大多数生成式AI工具中采用的是Copilot、而非Autopilot。微软CEO Satya Nadella在今年夏季的Inspire大会上表示,“必须让人类参与其中,以人机协作的方式进行设计——即人类始终对强大的AI辅助工具保持掌控,再由AI帮助人类完成各项任务。”作为生成式AI的应用关键,我们必须学会使用提示词以获得更好的成果。目前Copilot Lab等工具已经在帮助员工培养这方面技能。
同样的,不要直接使用自动化流程,而是要亲自为生成式AI工具建立工作流程,鼓励员工实验并评估由AI生成的内容。请注意,一定要关注AI给出的建议具体基于哪些信息、严格审查结果并检查它所引用的信息来源,而不能简单接受给出的优先选项。拿来就用不仅没法节约时间,反而可能因错误和偏见惹出更大的麻烦。
用户还应充分理解自己从生成式AI处获得的建议和决策,了解相应的潜在皇亲并向他人证明其合理性。英国信息专员办公室警告称,“如果你的组织不对AI辅助决策做出解释,那就可能面临声誉受损、公众批评甚至是监管机构的介入。”
比较可靠的处理方式,就是每次都要求AI提供多种备选方案,并对建议内容做出具体解释。此外,还应使用准确全面的提示词来指导大语言模型当前响应的推理过程和判断理由。除了让生成式AI引用关键信息来源之外,还应考虑如何突出显示需要认真核查的重要元素,例如日期、统计数据、政策和所依赖的行使等。
归根结底,上述手段是为了建立一种新的工作文化。在这种文化中,生成式AI被视为一种有待验证的实用工具,而非人类创造力和判断力的直接替代方案。
Daga指出,“生成式AI或者任何其他形式的AI技术,都应被用于增强人类决策,而非在现有局限性之下、特别是可能造成伤害的场合中取代人类。人类审查员则应接受训练,学会如何批判性地评估AI模型的输出,而不仅仅是接受它那看似言之凿凿的结论。”
除了在流程当中引入人工审查、鼓励对AI建议进行实验和全面评估之外,我们还需要设置护栏,阻止在不适用的场景下对任务进行全面自动化。Daga补充道,“例如,AI可能会为企业生成新闻发言稿,但只有人类编辑才能核准并发出能够与记者和出版社共享的最终文稿。”
生成式AI当然也有助于提高开发人员的工作效率,包括建立新的代码库、填充样板代码、自动补全函数和生成单元测试。我们应当运用这种额外的生产力,但也要确保这部分代码不会在未经人工审核的情况下流入生产环境。
来自科罗拉多州的咨询公司Sageable全球首席技术官兼创始人Andi Mann表示,企业应对其选择的后果负责,特别是因不当部署AI所引发的负面影响。“客户可不会听什么「这全是AI的错」那一套,所有数据泄露责任都会被归咎在人的身上。”
别把AI隐藏起来
为了以负责任的方式使用AI系统,无论对于内部员工还是外部客户,良好的透明度都是其中一项重要前提。但令人尴尬的是,已经有大量出版物开始使用AI生成的内容,而其糟糕的质量往往容易被读者一眼识破。即使是高质量的内容,我们也应该明确标记哪些是由AI系统生成的,包括内部会议摘要、营销信息或者聊天机器人响应等。请务必为聊天机器人等自动化系统设置“出口匝道”,允许用户随时转接人工进行处理。
在Daga看来,“客户应该有拒绝与生成式AI互动的权利,特别是拒绝与其讨论敏感内容。”
AI没有能力解决所有问题
随着舔式AI在商业场景中的广泛应用,我们必须对AI建议做出更加积极、主动且严格的判断。在去年的《DevOps自动化现状报告》中,80%的IT从业者已经意识到这个问题;而在2023年的《DevOps自动化与AI现状研究》当中,这一比例已经超过了90%。
Mann表示这种谨慎有其道理,特别是在特定领域的训练数据较为有限的情况下,更需要保证输出结果的可预测性、合理性和可验证性。以IT运营为例,一旦训练数据不足,AI模型极易产出不准确的结果。
他警告称,“对于各种需要应对新问题、逻辑链尚不清晰以及相关知识缺失/存量有限的用例,生成式AI的意义都非常有限。如果潜在输入纯粹是未广泛公开的小圈子知识,那么根本无法训练出稳定可靠的大语言模型。”
但他也认可将生成式AI作为助手的意义。“它可以成为顾问或者积极探索的专家,通过向训练引擎提供跨学科定义和知识库来理解「已知良好」的IT运营情况,再据此识别已知问题、诊断已知原因、识别已知的效率低下环节并通过已知补救措施进行响应。”不过千万不可松懈,哪怕是看似能够用熟悉流程和方案加以解决的新兴IT问题,我们也很难预先判断其中到底存在哪些例外情况。
Mann总结道,“我们都知道,在试图让AI解决「未知下的未知」问题时,它们几乎永远不愿承认自己无力处理,反而更倾向于抛出误导性、虚假、错误甚至是恶意的结果。”
有时反而会增加人类的工作负担
虽然生成式AI输出的内容往往有所助益,但由于部署门槛太低,有时候盲目使用也会加大审查负担、反而给从业者带来更多不必要的工作量。
不少休闲杂志就报告称,他们收到了大量由AI撰写的低质量故事,其效果甚至达到了拒绝服务攻击的程度。出版商一直在尝试使用AI来做修订和润色,但作家和编辑纷纷表示AI建议的修改方式往往无益、无效,甚至在处理技术术语、特定文风、复杂的句子结构和精确用词时完全错误。但对于初学者来说,这些情况其实很少遇到。所以请注意实事求是,以坦诚的态度看待生成式AI到底能够在哪些领域做出积极贡献。
采用AI工具的一大关键前提,就是先要建立起错误处理流程,而不是每次发现了错误再做个别调整。千万别假设生成式AI能从错误中吸取教训,也别以为相同的提示词总能指出同样的结果。对于重要内容,一定要使用提示词工程和过滤器对相关结果做出约束和限定。
此外,还要为计划之外的领域和流程做好迎接生成式AI技术的准备。新技术在这些领域和流程中的表现可能不佳,但良好的透明度往往有助于解决问题。员工需要了解企业何时允许使用生成式AI,具体如何披露可接受的使用政策。再有,我们还应当将生成式AI纳入审计和电子取证环节,具体形式依照企业聊天系统。
组织可能需要抓紧时间、尽快着手制定这些政策。TECHnaanalysis Research在今年春季曾对1000家美国企业进行过调查,其中88%的受访者表示已经在使用生成式AI,但只有7%的早期采用者为其制定了正式管理政策。
在IDC最近发表的一项关于AI技术机遇的研究中超过四分之一的企业领导者表示,缺乏AI治理与风险管理制度是限制该技术实施/扩展的一大挑战。除了担心企业数据泄露之外,商业声誉受损也是另一个需要优先考虑的问题。此外,超过半数受访者表示找不到熟练的技术人员也是一大障碍,这主要是指开发人员和数据工程师。再有,不具备理工技术背景的业务部门员工也需要接受培训,学习如何向AI工具准确提问,而后评估并验证其给出的结果。