有一些方法可以避免数据集中的偏差。
在训练人工智能(AI)算法时,取决于数据的输入。在业务环境中尤其如此,在这种情况下,人工智能的目的可能是与客户互动,管理自动化系统或模仿人工决策。成果与目标相符至关重要。但是,至关重要的是,企业必须能够解决任何可能歪曲人工智能对指令或请求的响应方式的偏见。
任何新产品的设计和开发阶段都是至关重要的,因为它使企业可以运行测试、识别并消除任何缺陷。如果由于某种原因而忽略了设计缺陷或产品出现故障,则可以快速解决。可以召回有故障的设备,同时可以发布更新和补丁来修复任何软件问题。对于典型的软件版本而言,这一切都很好,但是处理人工智能算法并不是那么简单。
人工智能算法是高度复杂的系统,旨在基于机器学习(ML)执行非常具体的任务。试图消除人工智能投入运行后所产生的任何数量的偏差可能既昂贵又费时;对于“学习”的技术而言,这也违反直觉。在设计和开发阶段采用适当的流程来检测并消除偏差会更加有效。
偏见对企业不利
人工智能的基本目的和功能被引入其基础算法中。如果人工智能要发展出固有的偏差,它将对算法产生不利影响。这可能会严重影响人工智能预期提供的精度和效率,从而限制人工智能满足其商业需求的能力,所有这些都对业务不利。
尽管有开发人员的最佳意图,偏见总能找到一种渗透人工智能算法的方法。与任何学习过程一样,学生也会受到其老师的影响。认可机构的教育范围取决于其课程设置。毫不奇怪,课程越多样化,学生越开明。同样,更大、更多样化的数据集有助于产生更精确、更高效的人工智能算法,从而能够做出更明智的决策。
培训数据和测试结果
每个成功的人工智能算法都建立在训练数据的基础上。但是,采购满足业务要求的数据可能会给物流和间接费用带来巨大挑战,尤其是如果这些要求包括满足大众市场的需求时。
内部开发人员团队,软件工程师和质量保证专家通常来自相同的年龄范围,性别和背景。偏差经常发生在数据收集和数据标记过程中。因此,在构建人工智能算法时,最好不要依赖某一个人或一个小组来提供将用于训练算法的数据。为了正确地训练算法,需要不同类型的数据和输入。
使用为人工智能算法提供与最终服务的客户更接近的人员和体验的暴露能力的模型,将会更有效率。企业可以使用这一模型来训练他们的算法,以响应现实情况,检测出偏差发生的地方并减少其潜在影响。
社区构建的算法
培训数据的成功获取和实施取决于数据本身的数量、质量和多样性。企业获取和处理此数据的唯一方法是利用多样化的参与者。企业需要能够从向其提供特定人口统计信息的社区中进行选择,包括性别、种族、母语、位置、技能、地理位置以及其他适用的过滤条件。
实际上,开发有效的算法需要大量数据。大多数企业没有能力大规模地获取数据。他们需要专用资源的支持才能交付新的软件和服务。最近的一个培训用于媒体和广播服务的智能语音助手的项目需要超过10万种不同的语音。这些话语最终由972个人提供,这些人被远程组装以训练算法。令人难以置信的壮举是,尽管可以在实验室中对语音进行某种程度的模拟,但人工智能仍然需要暴露于各种真实的声音和口音中。
言语训练只是教学大纲的一方面。众包解决方案还可以帮助企业训练人工智能算法以读取手写文档。最近的另一个项目需要数千个手写样本。数量再次成为关键因素,因为该算法需要尽可能广泛的唯一样本。远程聚集了1,000多名参与者,以提供手写文档并满足对各种内容的需求。
公正的结果
删除可能会降低人工智能最终结果准确性的意外偏差很重要。它将永远不会是完美的,但是人工智能会不断学习,并且最好的机器模型是基于大量多样数据集的模型。最好的策略是从提供数量、质量和多样性的池中获取培训数据。如果训练数据没有多样性,该算法将无法识别广泛的可能性,从而使该算法无效。远程社区使企业可以访问此数据,并补充内部开发和测试功能。众包测试可用于训练人工智能算法以研究和识别语音、文本、图像和生物识别,从而为企业提供强大的输出,可满足不同客户群的需求。