构建一个基于SQL数据的问答系统 | 🦜️🔗 LangChain

type

status

date

slug

summary

category

icon

password

comment

Status

构建一个基于SQL数据的问答链和Agent智能体_哔哩哔哩_bilibili

构建了一个生成SQL并执行查询的问答链应用和Agent智能体应用。官方链接：https://python.langchain.com/v0.2/docs/tutorials/sql_qa/视频相关文档：https://capricious-sesame-e56.notion.site/SQL-Agent-LangChain-b3816568680940f59d7bdffe319ab0c0?pvs=, 视频播放量 9631、弹幕量 3、点赞数 303、投硬币枚数 148、收藏人数 999、转发人数 133, 视频作者小灰的AI笔记, 作者简介探索AI的无限可能，相关视频：RAG增效SQL语句生成，开启大模型做数据查询新思路，本地Qwen2-7b模型也能又快又准，用Dify搭建基于智能体的聊天式数据查询应用，市面上各大AI Agent智能体框架的优缺点是什么？如何选择适合自己的智能体框架？迪哥带你从零梳理AI Agent智能体学习路径！，学习Agent，从dify开始，Qwen2-7B-微调-训练-评估，自然语言精确转换SQL语句并执行，零基础都可以学得会，大模型应用落地实战项目，【大语言模型】吴恩达最新：基于LangChain的大语言模型应用开发+构建和评估高级的RAG模型应用教程，大模型应用落地（附大模型开发文档），大模型全栈总览，【大模型生成SQL】Vanna项目分析&实践，如何搭建一套Agent系统

https://www.bilibili.com/video/BV1JT421Y7LQ/?spm_id_from=333.999.0.0

之前我们介绍了大语言模型(LLM)如何查询本地知识库中的文章片段完成问题回答的链和智能体，这是查询非结构化数据。今天我们来看一下如何查询结构化数据。

查询结构化数据，与查询非结构化文本数据在本质上是不同的。在非结构化文本数据中，常见的做法是生成可以被向量数据库搜索的文本。而结构化数据的处理方法通常是让LLM编写并执行查询语句(DSL)中的查询，例如SQL。在本指南中，我们将介绍在数据库中创建数据库表问答系统的基本方法。我们将涵盖使用链式调用和智能体两种实现方式。

链式应用将允许我们对数据库中的数据提出问题，并得到自然语言的回答。

智能体应用可以在需要时循环查询数据库，以回答问题。

⚠️ 注意 ⚠️

构建SQL数据库的问答系统需要执行由模型生成的SQL查询。这样做存在一些风险。请严格设置数据库连接权限。这样可以减轻构建模型驱动系统的风险。有关一般安全最佳实践的更多信息，请参阅这里。

架构

系统的执行的步骤如下：

将问题转换为DSL查询：模型将用户输入转换为SQL查询。

执行SQL查询：执行查询。

回答问题：模型使用查询结果响应用户输入。

请注意，查询CSV中的数据可以遵循类似的方法。有关详细信息，请参考操作指南，了解有关CSV数据上问答的更多细节。

配置

在这个教程中我们将使用openai的模型

我们来看一下使用SQLite连接Chinook数据库，请按照以下安装步骤，在与此笔记本相同的目录中创建Chinook.db：

下载保存文件到 Chinook.sql

执行 sqlite3 Chinook.db 命令

执行 .read Chinook.sql 命令

测试查询SELECT * FROM Artist LIMIT 10;

现在， Chinook.db 已经在我们的目录中，我们可以使用由SQLAlchemy驱动的SQLDatabase类与之交互：

API 调用:SQLDatabase

现在我们已经有了一个可以查询的 SQL 数据库。现在让我们尝试将它连接到一个 LLM。

Chains

链（也就是由LangChain的Runnables子类组成的组合）适合能够确定执行流程的应用。我们可以先创建一个简单的链，它接受一个问题并执行以下操作：

将问题转换成SQL查询语句；

执行这个查询；

用查询结果来回答最初的问题。

但是链并不支持所有场景。比如，对于任何用户输入哪怕是“hello”，这个系统都会执行一个SQL查询。重要的是，有些问题需要多次查询才能解答。这种场景适用于agent智能体。

将问题转换为 SQL 查询语句

在链或agent中，第一步是获取用户输入并将其转换为SQL查询。LangChain提供了一个内置的链来完成这项工作： create_sql_query_chain。

API 调用:create_sql_query_chain

尝试执行sql

我们可以查看LangSmith追踪来更好地理解这个链在做什么。我们也可以直接查看提示词（如下）：

明确引用了SQLite。

为所有可用的表提供了定义。

为每个表提供了三行示例数据。

我们也可以像这样检查完整的提示：

执行 SQL 查询

生成了SQL查询之后，下一步自然是执行它。这是创建SQL链中最危险的一部分。请仔细考虑是否适合在您的数据上运行自动化查询。尽可能地最小化数据库连接权限。可以考虑在执行查询之前为您的链添加人工审批步骤（见下文）。

我们可以使用 QuerySQLDatabaseTool 轻松地为链添加执行sql的节点：

API 调用:QuerySQLDataBaseTool

回答问题

现在我们已经能够自动生成并执行查询，只需要将原始问题和SQL查询结果结合起来，生成最终答案。我们可以通过再次将问题和结果传递给大型语言模型(LLM)来实现：

API 调用：StrOutputParser | PromptTemplate | RunnablePassthrough

让我们回顾一下上述LCEL中发生的事情。假设这个链被调用。

在第一个RunnablePassthrough.assign之后，会返回一个包含两个元素的可运行对象：{"question": question, "query": write_query.invoke(question)}，其中write_query将生成一个SQL查询语句，以回答这个问题。