创建检索增强生成（RAG）应用 | 🦜️🔗 LangChain

type

status

date

slug

summary

什么是检索增强生成（RAG）？

RAG是一种用外挂数据增强LLM知识的技术。

LLMs具备推理能力，但它们的知识仅限于接受训练时的公共数据，他缺少最新的实时数据和一些未在互联网公开的数据。如果希望构建的应用程序能够推理个人数据或模型训练数据截止日期之后的数据，您需要用外挂模型缺少的信息，来增强模型的知识。将外来的信息引入并插入到模型提示中的过程称为检索增强生成（RAG）。

LangChain有多个帮助构建问答应用程序和RAG应用程序的组件，让我们可以轻松搭建自己想要的应用程序。

注意：这里我们专注于非结构化数据的问答。如果对在结构化数据上进行检索增强生成感兴趣，请在评论区下留言，我会尽快录制关于在SQL数据上进行问答生成的视频。

概念

一个典型的 RAG 应用有两个重要组成部分：

Indexing（创建索引）: 从数据源获取数据并对其生成可检索向量的流程，这通常是离线进行的。

Retrieval and generation（检索到生成）: 实际的RAG链（chain），是在运行时接收用户查询并从索引中检索相关数据，然后将其传递给模型。

从原始数据到答案输出的最常见的流程如下：

创建索引

Load（加载）: 首先需要加载我们的数据。这可以通过文档加载器（DocumentLoaders）来实现。

Split（分割）: 使用文本分割器（Text splitters ）将大型“文档”拆分成较小的块。这是为了解决两个问题：提高检索效率，解决模型单次传入token数量限制，因为块越大越难以检索，并且无法适应模型的有限上下文窗口。

Store（存储）: 我们需要一个地方来存储我们的分割数据，以便以后可以进行搜索。我们可以使用向量数据库（VectorStore）和向量化模型（Embeddings models）来实现这一点。

检索和生成

Retrieve（检索）: 根据用户输入，使用检索器（Retriever）从存储中检索相关的块。

Generate（生成）: 通过使用包含用户问题和检索到的数据来组成提示词，ChatModel / LLM 根据提示词生成回答。

Setup

安装依赖

LangSmith

使用LangChain构建的许多应用程序将都包含多个步骤和多次调用LLM调用。随着这些应用程序变得越来越复杂，能够检查chain或agent内部发生的细节变得至关重要。这样做的最佳方式是使用LangSmith。

请注意，LangSmith并非必需，它只是在我们开发调试应用的时候非常有用。如果想使用可以在官网注册后申请秘钥，每个月都会有一定的免费使用额度，足够我们学习和测试，将key设置在的环境变量中就可以轻松使用LangSmith。

notebook中设置

Preview

在本指南中，我们将基于网页上构建一个问答应用程序。

我们可以创建一个简单的本地知识库索引和 RAG 链来实现这个功能，这大约只需要 20 行代码。

OpenAI

API 调用:WebBaseLoader | StrOutputParser | RunnablePassthrough | OpenAIEmbeddings | RecursiveCharacterTextSplitter

查看 LangSmith trace.

详细流程

让我们逐步解释上面的代码，以便真正理解代码到底进行了什么操作。

1. 创建索引: 加载数据

加载数据我们可以使用文档加载器（DocumentLoaders）来完成，它们是从源加载数据并返回Documents列表的对象。Document 是一个带有 page_content (str) 和 metadata (dict) 的对象。

对于加载网页内容，我们将使用WebBaseLoader（属于文档加载器的一种），它使用 urllib 从 web URL 加载 HTML，然后使用 BeautifulSoup 将其解析为文本。我们可以通过向 bs_kwargs 传递参数来自定义 HTML -> 文本解析（参见BeautifulSoup文档）。在这种情况下，只有具有“post-content”、“post-title”或“post-header”类的 HTML 标签是相关的，所以我们将删除所有其他标签。

API 调用:WebBaseLoader

`DocumentLoader`

DocumentLoader: Object that loads data from a source as list of Documents.

Docs: 怎样使用文档加载器 DocumentLoaders.

Integrations: 160+ 可供选择的文档类型集成。

Interface: API 的基本接口。

2. 创建索引: 分割

我们的加载文档超过42,000个字符。这太长了，很多模型的上下文窗口无法完全容纳。即使是那些可以完全容纳整篇文章的模型，也很难在非常长的输入中找到信息。

为了处理这个问题，我们将把“文档”分成多个块进行嵌入和向量存储。这样可以帮助我们在运行时只检索出最相关的部分博客文章。

在这种情况下，我们将把我们的文档分成每1000个字符一组，每组之间有200个字符的重叠。重叠有助于减少分离语句与与之相关的重要上下文的可能性。我们使用了RecursiveCharacterTextSplitter，它将递归地使用常见的分隔符（例如换行符）拆分文档，直到每个块的大小合适。这是通用文本用例的推荐文本拆分器。

我们设置 add_start_index=True，这样每个拆分的文档在初始文档中开始的字符索引位置将被保留为元数据 start_index属性。

API Reference:RecursiveCharacterTextSplitter

`TextSplitter`

TextSplitter （ DocumentTransformer的子类）: 将Document列表分割为更小的块的对象。

探索上下文感知分割器，它们保留原始文档中每个分割的位置（“context”）。

Code (py or js)

Scientific papers

Interface: API 的基本接口。

DocumentTransformer: 执行对不同类型文档进行切割转换的对象。

Docs: 如何使用 DocumentTransformers

Integrations

Interface: API 调用

3. 创建索引: 存储

现在我们需要为我们的 66 个文本块建立索引，以便我们可以在运行时对它们进行搜索。最常见的做法是嵌入每个文档分割的内容，并将这些嵌入插入到向量数据库（或向量存储）中。当我们想要在我们的分割上搜索时，我们获取一个文本搜索查询，并对其进行嵌入，然后执行某种“相似性”搜索，以识别与我们的查询嵌入最相似的存储分割。最简单的相似度度量是余弦相似度 — 我们测量每对嵌入之间的角的余弦（这些嵌入是高维向量）。

我们可以使用Chroma向量存储和OpenAIEmbeddings模型，在一个方法中完成嵌入和存储所有分割文档。

API 调用:OpenAIEmbeddings

Go deeper

Embeddings: 文本向量嵌入模型的包装器，用于将文本转换为向量。

Docs: 文本嵌入详情

Integrations: langchain 的向量模型集成，实现了Embeddings 接口的对象

Interface: API 调用

VectorStore: 向量数据库的封装，用于存储和查询向量。

Docs: 如何使用向量数据库

Integrations: 向量数据库继承，实现了VectorStore 接口的对象

Interface: API调用

这完成了链的索引部分。此时，我们拥有一个可查询的向量存储，其中包含博客文章内容的切分部分。针对用户提出的问题，理想情况下我们应该能够返回回答问题的博客文章内容。

4. 检索和生成: 检索器

现在让我们编写实际的应用逻辑。我们希望创建一个简单的应用，该应用接收用户提出的问题，搜索与该问题相关的文档，将检索到的文档和初始问题传递给一个模型，并返回一个答案。

首先我们需要定义我们搜索文档的逻辑。LangChain定义了一个Retriever接口，它包装了一个索引，可以根据字符串查询返回相关的文档Documents 。

向量存储转换为可执行的检索器，最常见的 Retriever 类型是VectorStoreRetriever，它利用向量存储的相似度搜索功能来实现检索。任何 VectorStore 可以轻松地转换为 Retriever 使用VectorStore.as_retriever()。

Go deeper

对于检索器（retrieval）向量存储（Vector stores）是最常用的，但是也有其他检索器可以使用。

Retriever: 一个传入查询的内容返回相关文本Document 列表的类

Docs: 更多关于创建不同检索器的文档:

MultiQueryRetriever 生成输入问题的变形以提高检索命中率。
MultiVectorRetriever 生成嵌入向量的变形，也是为了提高检索命中率。
Max marginal relevance 选择在检索的文档中相关性和多样性，以避免在重复的上下文中传递。
在矢量存储检索期间，可以使用元数据过滤器对文档进行过滤，例如使用Self Query retriver。

Integrations: 与检索服务的集成。

Interface: API 调用。

5. 检索和生成: 生成器

让我们把所有内容整合成一个链条，以便接收问题，检索相关文档，构建提示，传递给模型，并解析输出。

我们将使用gpt-3.5-turbo OpenAI聊天模型，但可以替换成任何LangChain LLM或ChatModel。

我们使用LangChain封装好的RAG提示词模板。

我们使用LangChain的 LCEL 协议定义一个链

这里是实现：

API 调用:StrOutputParser | RunnablePassthrough

剖析理解什么是 LCEL

首先：这些组件（retriever，prompt，llm等）都是Runnable的实例。这意味着它们实现了相同的方法，比如同步和异步的.invoke，.stream，或者.batch，这使它们更容易连接在一起。它们可以通过|操作符连接到RunnabaleSequence（另一个Runnable）。

在遇到|操作符时，LangChain会自动将某些对象转换为Runnable。在这里，format_docs被转换为RunnableLambda，包含context和question的字典被转换为RunnableParallel。只需要记住，那就是每个对象都是Runnable。

让我们跟踪上面整个链，怎样输入问题到每一步的执行。

正如我们在上面看到的，提示的输入应该是一个带有 "context"和"question"键的字典。因此，这个链的第一个元素将从输入的问题中拿到这两个值。