SEO优化技巧

释放双眼，带上耳机，听听看~！

本文介绍了使用RAG技术在langchain框架中构建对话应用的过程，包括加载器、分割器、Embeding模型、向量数据库、检索器和LLM的实现方式。

目标

在上一篇文章中，我们已经尝试在本地部署了大模型以及利用langchain框架来构建起基于大模型的应用程序。在本章中，我们将更近一步，在现有的应用程序上尝试利用RAG来继续强化应用。

本章目标：利用langchain框架使用RAG构建对话应用。

RAG回顾

RAG全名检索增强生成，是一种利用外部知识库扩展模型知识的技术。基本的RAG由三部分构成：索引、检索和生成。他们的流程如下：

索引

SEO优化技巧

构建索引的过程需要将外部的非结构化数据转换成向量表示并存储到向量数据库中。对于比较大的文件内容，我们首先还要对其进行分块，以适应LLM上下文的大小。转换之后的文本内容是一个高维的向量，具有相同语义的文本在高维空间中具有更高的相似度，通过这种方式来实现语义检索。

可以看出，在这个过程中，我们需要准备好以下几个组件：

加载器：负责结构化/非结构化数据的加载。
分割器：负责将数据分割成便于处理的块。
Embeding模型：负责将数据内容嵌入成高维向量
向量数据库：负责将高维向量进行存储，供后续使用。

检索和生成

SEO优化技巧

检索过程中，需要根据用户的问题进行检索。在这个过程中，检索器会根据用户的输入找出符合用户意图（简单实现即语义相似）的内容，将这部分内容作为上下文和用户问题一起组成prompt，并输入LLM，由LLM处理并给出最终回复。

在这个过程中，需要准备的组件：

embeding模型：用于将用户问题向量化，可以使用和索引部分相同的embeding模型。
检索器：用于根据用户问题召回最相关的内容。
LLM：用于生成回复

基于langchain搭建RAG

经过以上分析，我们得知利用RAG技术来实现一个基于大模型的应用需要以下几个部分：加载器、分割器、Embeding模型、向量数据库、检索器和LLM。接下来我们看在langchain中如何实现。

加载器

加载器的实现方式有很多。在这里为了方便演示我们使用最基本的文本加载器。我们先建立文本如下：

2024年7月23日上海的天气是：16~37度，天气晴。苏州的温度是10~20度，天气雨。

然后我们使用文档加载器加载文档内容。

from langchain.document_loaders import TextLoader

loader = TextLoader("C:UserswykDesktopsmalltianqi.txt")
docs = loader.load()

加载后的内容如下：

[Document(metadata={'source': 'C:UserswykDesktopsmalltianqi.txt'}, page_content='2024年7月23日上海的天气是：16~37度，天气晴。苏州的温度是10~20度，天气雨。')]

在langchain中，

langchain中的基础loader类叫做BaseLoader。不同加载类继承自该类。
Document抽象用来表示一个文本单元及其元数据信息。一个独立的Document对象通常表示一个大文档的一个chunk。

分割器

langchain中有很多文本分割器，这里我们使用RecursiveCharacterTextSplitter。RecursiveCharacterTextSplitter能够递归拆分文本，这样做可以将相关的文本片段保持在一起。

from langchain_text_splitters import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

分割之后的内容如下：

[Document(metadata={'source': 'C:UserswykDesktopsmalltianqi.txt'}, page_content='2024年7月23日上海的天气是：16~37度，天气晴。苏州的温度是10~20度，天气雨。')]

Embeding模型

目前主流的embeding模型项目包括FlagEmbedding, Ember, GTE and E5。我们选择FlagEmbedding中的小中文模型bge-small-zh-v1.5（大了可能本地跑不动）来演示效果。关于该模型的下载和使用参考我的另一篇文章。

向量数据库

向量数据库我们选择Chroma，因为它比较轻量，基于内存实现。方便作为演示。

from langchain_chroma import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
vectorstore = Chroma.from_documents(documents=splits, embedding=HuggingFaceEmbeddings(model_name='D:modelembedingbge-small-zh-v1.5'))

至此，我们完成了索引流程，外部知识已经被注入到向量数据库中。

SEO优化技巧

检索器

在langchain中提供了简单的方法可以将VectorStore对象转换为检索器

retriever = vectorstore.as_retriever()

LLM

LLM依旧使用我们之前代码中定制的LLM（换了下底层模型，用qwen2:7B）。

#!/usr/bin/env python
from typing import List
import ollama

class CustomLLM1:
    @property
    def _llm_type(self) -> str:
        # 返回我们自定义的模型标记
        return "myLlaMA"
    #     return ChatResult(generations=[generation])
    def __call__(self, prompt: str) -> str:
        # 这里是调用自定义模型或API接口的逻辑
        # print(prompt)
        messages = [
            {"role": "user", "content": prompt.to_string()},
            # 如果需要，可以在这里添加更多的消息历史
        ]

        response = self.llama_completion(messages)
        return response 

    def llama_completion(self, messages: List[dict]) -> str:
        # 调用llama的接口，返回响应
        # return "Hello from llama!"
        print(messages)
        response = ollama.chat(model='qwen2:7b', messages=messages)
        print(response['message']['content'])
        return response['message']['content']

串联流程

利用langchain表达式，将上面的各个组件全都串联起来。

from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import PromptTemplate
# Retrieve and generate using the relevant snippets of the blog.
retriever = vectorstore.as_retriever()
prompt = PromptTemplate(input_variables=[], template="请回答以下问题：{question},相关信息：{context}")

def format_docs(docs):
    return "nn".join(doc.page_content for doc in docs)
llm = CustomLLM1()
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

测试

为了对比效果，我们构建另一个没有RAG的chain做对比：

prompt2 = PromptTemplate(input_variables=[], template="请回答以下问题：{question}")
rag_chain2 = (
    {"question": RunnablePassthrough()}
    | prompt2
    | llm
    | StrOutputParser()
)
rag_chain2.invoke(input="今天上海天气如何？")

实现效果如下：

不带RAG	带RAG
抱歉，作为一个AI模型，我无法提供实时信息或进行在线查询。您需要查看最新的天气预报来获取准确的上海天气情况。通常您可以访问气象局官方网站、下载天气应用程序或者通过可靠的新闻来源获得最新的天气资讯。	根据您提供的信息，今天的上海天气是晴朗的，并且温度范围为16到37度。在同一天内，苏州的天气则有所不同，温度在10到20度之间，且有雨水。因此，如果您身处上海的话，可以期待一个晴热的日子，请记得采取适当的防晒措施以防止中暑，并确保补充水分。nn此外，由于苏州有雨的情况，您如果计划前往或是在苏州，则需要携带雨具以防淋湿。同时，在雨水天气下，路面可能较滑，注意行走安全。总体来说，两地的天气差异较大，需根据不同地点的具体情况来调整日常安排和穿着。

不带RAG

带RAG

抱歉，作为一个AI模型，我无法提供实时信息或进行在线查询。您需要查看最新的天气预报来获取准确的上海天气情况。通常您可以访问气象局官方网站、下载天气应用程序或者通过可靠的新闻来源获得最新的天气资讯。

根据您提供的信息，今天的上海天气是晴朗的，并且温度范围为16到37度。在同一天内，苏州的天气则有所不同，温度在10到20度之间，且有雨水。因此，如果您身处上海的话，可以期待一个晴热的日子，请记得采取适当的防晒措施以防止中暑，并确保补充水分。nn此外，由于苏州有雨的情况，您如果计划前往或是在苏州，则需要携带雨具以防淋湿。同时，在雨水天气下，路面可能较滑，注意行走安全。总体来说，两地的天气差异较大，需根据不同地点的具体情况来调整日常安排和穿着。

结论：可以看出，使用RAG的大模型应用能够获取到模型本身之外的新知识~。这对于构建知识库应用是非常重要的。

总结

本章中，我们回归了一下RAG的流程，并分析了下这个过程中涉及到的组件以及这些组件在langchain中对应的实现方式，并整合这些方式，实现了带RAG的大模型应用。通过这个实践过程，能够帮助我们更好的理解RAG的整个过程。（当然为了演示，我们这里实现的是最基础的RAG）。

在本篇文章内容中，除了RAG技术外，还涉及到两个知识内容：python和langchain,没有相关背景的同学可能会对涉及到这两个内容的地方会有些困惑。但没有关系，我也不熟，并且在这篇文章中这并不影响我们理解RAG的整个过程。因为这两部分内容也比较庞大，后续有机会我会开两个单独的专栏来讲解相关内容。本文我们关注的重点应该是RAG。

下一篇文章我会尝试跟进RAG最新的进展，尝试在本地部署一下GraphRAG，实践并讲解其中的原理，感兴趣的小伙伴可以关注下哦~

参考文档

langchain114.com/docs/use_ca…

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

SEO优化技巧

目标

RAG回顾

索引

检索和生成

基于langchain搭建RAG

加载器

分割器

Embeding模型

向量数据库

检索器

LLM

串联流程

测试

总结

参考文档

比特币与区块链技术详解：开启数字货币新纪元

豆瓣电影列表-梦境/仙境/Wonderland信息介绍

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

StoryDiffusion

归档

{{userData.name}}已认证

目标

RAG回顾

索引

检索和生成

基于langchain搭建RAG

加载器

分割器

Embeding模型

向量数据库

检索器

LLM

串联流程

测试

总结

参考文档

比特币与区块链技术详解：开启数字货币新纪元

豆瓣电影列表-梦境/仙境/Wonderland信息介绍

用ChatGPT插件联网搜索，惊喜不断！

Phind: 面向开发者的 AI 搜索引擎

微软BingChat全面开放，支持多模态回答与插件功能

Elasticsearch Relevance Engine™ (ESRE™)：为AI变革提供高级搜索能力