软件开发人员指南：在自己的数据上训练ChatGPT-编程学习网

审校 | 重楼

出品 | 51CTO技术栈（微信号：blog51cto）

OpenAI公司推出的ChatGPT对于对话式人工智能具有革命性意义。虽然其开箱即用的功能令人印象深刻，但ChatGPT的功能本质上受到2021年固有训练数据的限制。对于软件开发人员和科技公司来说，在自定义数据集上训练ChatGPT是创建量身定制的人工智能助手的关键。

在这个全面的指南中，将探索软件团队使用微调和MEMWALKER交互式阅读等技术来训练定制ChatGPT模型的最佳实践。

1、克服ChatGPT默认训练的局限性

ChatGPT是由OpenAI公司在一个庞大的通用知识数据集上进行了预训练，包括维基百科、书籍、网站等。由于这些训练数据是在2021年收集的，ChatGPT有一些天然的弱点：

对2021年之后发生的近期事件或新出现的话题一无所知。
在历史和文学等常见领域之外的专业知识狭窄。
没有基于对话的个人记忆功能。
难以在长对话中保持场景。

这些限制直接来自ChatGPT的固定数据集，该数据集缺乏最新的专业知识。用户通过在自己的数据上训练ChatGPT，可以创建适合自己的行业、主题和业务需求的版本。

2、训练ChatGPT模型的关键方法

软件开发团队可以使用一些核心技术来定制ChatGPT：

（1）对Curated数据集进行微调

一种简单直接的方法是收集相关文本，例如文档、电子邮件、手册等，以微调ChatGPT模型。这个过程包括：

编译自定义数据集：收集涵盖用户希望ChatGPT学习的主题和知识的文本。
清洗和预处理：将数据转换为标准格式，匿名化任何敏感信息。
微调模型：使用类似Anthropic的API上传数据集，并通过反向传播进一步训练ChatGPT。

微调直接将用户的专业知识灌输到ChatGPT中。

（2）采用MEMWALKER互动阅读

对于长格式文本，MEMWALKER等先进技术可以在训练期间更有效地处理场景。MEMWALKER有两个阶段：

建立记忆树：长文本被分成多个片段。每个片段汇总形成树结构的一个节点。
导航树：当回答问题时，人工智能遍历树以从节点收集相关细节。

这种方法允许在冗长的示例中维护场景。

（3）检索增强

用户还可以通过索引数据集并将搜索与ChatGPT相结合来使用检索增强功能。这允许在推理时利用大量的利基数据。

建立向量索引：为自定义文本集合建立索引，以进行语义搜索。
整合检索：在查询ChatGPT时，首先从索引中显示相关文本。
生成响应：让ChatGPT使用这些文本来告知其答案。

总之，这些技术支持对ChatGPT知识进行重要的定制。接下来，用户可以通过一些步骤来训练自己的模型。

3、如何训练ChatGPT模型的聊天技巧

用户可以通过实践指南来训练自己的ChatGPT模型，以适合其用例：

（1）收集和准备训练数据

编制与行业或主题相关的文本内容的多样化数据集。抓取相关网站，收集产品文档，创建自定义文章等。
通过消除文本重复、修复格式问题和匿名化任何私人信息来清理数据。
将数据集拆分为训练、验证和测试子集。

（2）将数据上传到人工智能平台

使用Anthropic或Cohere等平台上传数据集。确保正确地标记数据拆分。
选择ChatGPT模型架构，例如Claude或GPT-3模型作为基础。

（3）进行额外训练

通过梯度下降训练，在训练中调整基础模型。在开发集上进行验证。
考虑使用MEMWALKER之类的技巧来处理长文本。
检索aug，索引文本并集成语义搜索。

（4）评估自定义聊天机器人

在坚持测试集和真实世界的对话中测试用户经过专门训练的模型。
分析模型对关键概念、相关性和对话连贯性的回忆。
通过收集更多关于弱点和再培训的数据来迭代改进。

（5）部署模型

当用户满意时，通过人工智能平台提供的API部署其自定义ChatGPT。
设置生产实例并将其集成到用户的应用程序和业务工作流中。

·监控和维护模型，根据需要对新数据进行再培训。

4、自定义聊天机器人的实际应用

经过专门训练的ChatGPT模型在商业应用中有无限的可能性：

客户支持机器人：训练产品文档，手册和常见问题。
行业分析机器人：获取收益报告、新闻稿和文章，回答财务问题。
主题专家机器人：通过教科书和研究论文进行训练，教授医学、法律、工程等知识。
企业文化机器人：通过培训新员工了解内部维基、手册和信息历史，帮助他们入职公司。

正如人们所看到的，几乎任何行业或利基领域都可以从定制的、知识渊博的ChatGPT助手中受益。自定义解锁了与用户的用例相一致的更多相关的对话能力。

互动阅读领域提供了大量的实际应用。以检索增强生成(RAG)为例，它融合了检索和文本生成。这些模型可以从MEMWALKER中受益匪浅，使它们能够有效地从大量文档集合中提取相关的见解。

此外，企业可以利用集成了MEMWALKER的自定义人工智能聊天机器人进行更广泛、更自然的对话，同时保留必要的场景。

随着大型语言模型(LLM)的不断发展，交互式阅读的潜力只会不断扩大。它为人工智能管理需要对场景、记忆和逻辑推理有丰富理解的任务铺平了道路。

5、训练大型人工智能模型的未来

像交互式阅读这样的方法有利于导向在大型语言模型中更像人类的场景处理。随着大型语言模型（LLM）的规模越来越大，减少他们对数据的渴求将是至关重要的。有效的信息编码也允许利用更专业的利基知识。

对于软件开发团队来说，学习如何有效地训练和定制像ChatGPT这样的大语言模型会给企业带来更多的机会。结合检索增强等技术，这些人工智能助手可以在广泛的主题上进行有意义的、深入的对话，稳步向人工智能助手迈进。

希望这一指南能够阐明训练ChatGPT机器人的有效技术。有了正确的数据和有效的训练方法，用户就可以为其软件业务和开发人员创建专门的对话代理。

原文链接：https://dzone.com/articles/training-chatgpt-on-your-own-data-a-guide-for-soft

文章详情

软件开发人员指南：在自己的数据上训练ChatGPT