文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何使用LangChain和OpenAI API分析文档?

2024-11-30 04:39

关注

审校 | 重楼

从文档和数据中提取洞察力对于做出明智的决策至关重要。然而在处理敏感信息时,会出现隐私问题。结合使用LangChainOpenAI API,您就可以分析本地文档,无需上传到网上。

它们通过将数据保存在本地、使用嵌入和向量化进行分析以及在您的环境中执行进程来做到这一点。OpenAI不使用客户通过其API提交的数据来训练模型或改进服务。

搭建环境

创建一个新的Python虚拟环境这将确保没有库版本冲突。然后运行以下终端命令来安装所需的库。

pip install langchain openai tiktoken faiss-cpu pypdf

下面详细说明您将如何使用每个库

安装完所有库之后,您的环境现已准备就绪

获得OpenAI API密钥

当您向OpenAI API发出请求时,需要添加API密钥作为请求的一部分。密钥允许API提供者验证请求是否来自合法来源,以及您是否拥有访问其功能所需的权限。

为了获得OpenAI API密钥,进入到OpenAI平台

然后在右上方的帐户个人资料下,点击“查看API密钥将出现API密钥页面。

点击“创建新的密钥”按钮。为密钥命名,点击“创建新密钥OpenAI将生成API密钥,您应该复制并保存在安全的地方。出于安全原因,您将无法通过OpenAI帐户再次查看它。如果丢失了密钥,需要生成新的密钥。

导入所需的库

为了能够使用安装在虚拟环境中的库,您需要导入它们。

from langchain.document_loaders import PyPDFLoader, TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

注意,您从LangChain导入了依赖,这让您可以使用LangChain框架的特定功能

加载用于分析的文档

先创建一个含API密钥的变量。稍后,您将在代码中使用该变量用于身份验证。

# Hardcoded API key
openai_api_key = "Your API key"

如果您打算与第三方共享您的代码,不建议对API密钥进行硬编码。对于打算分发的生产级代码,则改而使用环境变量。

接下来,创建一个加载文档的函数。该函数应该加载PDF或文本文件。如果文档既不是PDF文件,也不是文本文件,该函数会抛出值错误

def load_document(filename):
    if filename.endswith(".pdf"):
 loader = PyPDFLoader(filename)
 documents = loader.load()
 elif filename.endswith(".txt"):
 loader = TextLoader(filename)
 documents = loader.load()
 else:
 raise ValueError("Invalid file type")

加载文档后,创建一个CharacterTextSplitter。该分割器将基于字符将加载的文档分隔成更小的块。

text_splitter = CharacterTextSplitter(chunk_size=1000, 
   chunk_overlap=30, separator="\n")

   return text_splitter.split_documents(documents=documents)

分割文档可确保块的大小易于管理,仍与一些重叠的上下文相连接。这对于文本分析和信息检索之类的任务非常有用。

查询文档

您需要一种方法来查询上传的文档,以便从中获得洞察力。为此,创建一个以查询字符串和检索器作为输入的函数。然后,它使用检索器和OpenAI语言模型的实例创建一个RetrievalQA实例。

def query_pdf(query, retriever):
  qa = RetrievalQA.from_chain_type(llm=OpenAI(openai_api_key=openai_api_key),
   chain_type="stuff", retriever=retriever)
  result = qa.run(query)
 print(result)

函数使用创建的QA实例来运行查询并输出结果。

创建函数

函数将控制整个程序流。它将接受用户输入的文档文件名并加载该文档。然后为文本嵌入创建OpenAIEmbeddings实例,并基于加载的文档和文本嵌入构造一个量存储。将该向量存储保存到本地文件。

接下来,从本地文件加载持久的量存储。然后输入一个循环,用户可以在其中输入查询。主函数将这些查询持久化向量存储的检索器一起传递给query_pdf函数。循环将继续,直到用户输入exit

def main():
   filename = input("Enter the name of the document (.pdf or .txt):\n")
  docs = load_document(filename)
  embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
  vectorstore = FAISS.from_documents(docs, embeddings)
   vectorstore.save_local("faiss_index_constitution")
  persisted_vectorstore = FAISS.load_local("faiss_index_constitution", embeddings)
  query = input("Type in your query (type 'exit' to quit):\n")

  while query != "exit":
  query_pdf(query, persisted_vectorstore.as_retriever())
  query = input("Type in your query (type 'exit' to quit):\n")

嵌入捕获词之间的语义关系。向量是一种可以表示一段文本的形式。

这段代码使用OpenAIEmbeddings生成的嵌入将文档中的文本数据转换向量。然后使用FAISS对这些向量进行索引,以便效地检索和比较相似的向量。这便于对上传的文档进行分析。

最后,如果用户独立运行程序,使用__name__ == "__main__"构造函数来调用函数

if __name__ == "__main__":
   main()

这个应用程序是一个命令行应用程序。作为一个扩展,可以使用Streamlit为该应用程序添加Web界面。

执行文件分析

要执行文档分析,将所要分析的文档存储在项目所在的同一个文件夹中,然后运行该程序。它将询问要分析的文档的名称。输入全名,然后输入查询,以便程序分析

下面的截图显示了分析PDF的结果。

下面的输出显示了分析含源代码的文本文件的结果。

确保所要分析的文件是PDF或文本格式。如果您的文档采用其他格式,可以使用在线工具将它们转换成PDF格式

完整的源代码可以在GitHub代码库中获得:https://github.com/makeuseofcode/Document-analysis-using-LangChain-and-OpenAI。

原文How to Analyze Documents With LangChain and the OpenAI API,作者:Denis Kuria

来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯