LlamaIndex系列：RAG应用开发和数据连接器详解

释放双眼，带上耳机，听听看~！

深入了解LlamaIndex系列，包括RAG应用开发和数据连接器模块。学习如何构建AI知识库和处理数据加载，助力AI应用开发。

欢迎来到我的LlamaIndex系列，如果您也和我一样，在搭建RAG应用时，了解到了LlamaIndex, 那就请一起来学习它的各个功能模块和demo实例。
LlamaIndex 一简单文档查询 – 掘金 (juejin.cn)

LlamIndex二 RAG应用开发 – 掘金 (juejin.cn)

LlamaIndex三配置 – 掘金 (juejin.cn)

前言

我们通过各项配置，理解了LlamaIndex在构建知识库和基于知识库的推荐两个阶段，怎么和业务相结合。本文，我们将开始深入理解LlamaIndex的各个模块。首先，LlamaIndex强大的Data Connector 数据连接器上场。

LlamaIndex擅长和各种类型或格式的数据打交道，并通过Document和Nodes的概念，embedding索引后，交给大模型处理，高精度完成AI知识库或AI助理应用开发。利用私有知识库，增强LLM的检索能力，即RAG。

现在，让我们来仔细研究Data Connectors数据连接器模块的细节。

Data Connectors

LlamaIndex系列：RAG应用开发和数据连接器详解

开始深入之前，我们先来回顾下LlamaIndex构建知识库（Knowledge Base）阶段的架构图。最左侧的Data Sources部分展示了RAG应用中，各种数据来源。RAG应用多是聊天机器人或搜索的产品形式，入口简单，这就需要LlamaIndex具备整合或自然语言处理各种格式，或各种渠道数据的能力。图中列出了Databases 数据库，Documents 文档，APIs 应用接口。假如是大型企业或组织，这是要整多少数据库，横跨多长时间的文档，散落在多少业务中的API?

LangChain作为LLm开发框架，将RAG这块交给LlamaIndex, 正因为它的专业。当我们开始着手RAG应用时，数据加载是非常重要的一个环节，且LlamaIndex给我们安排了那些科技和狠活…

数据连接器接口

为支持不同数据源和格式的数据加载，LlamaIndex准备了一堆数据接口类，让人好生欢迎

Simple Directory Reader
Psychic Reader
DeepLake Reader
Qdrant Reade
Discord Reader
MongoDB Reader
Chroma Reader
MyScale Reader
Faiss Reader
Obsidian Reader
Slack Reader
Web Page Reader
Pinecone Reader
Mbox Reader
MilvusReader
Notion Reader
Github Repo Reader
Google Docs Reader
Database Reader
Twitter Reader
Weaviate Reader

连接demos

连接网页数据

from llama_index import download_loader #老版本可以直接import SimpleWebPageReader 现在得这么搞

SimpleWebPageReader = download_loader("SimpleWebPageReader")

loader = SimpleWebPageReader()
documents = loader.load_data(urls=['http://paulgraham.com/worked.html'])

各位，请留意。最新版本的LlamaIndex 基于llamahub来托管，大家可以到Llama Hub来看最新文档。代码中download_loader的意思就是先从llamahub中加载SimpleWebPageReade连接器。

LlamaIndex系列：RAG应用开发和数据连接器详解

从打印结果我们可以看到，SimpleWebPageReader接口将网页数据以Document的格式保存。

连接Markdown格式文件

from pathlib import Path
from llama_index import download_loader

MarkdownReader = download_loader("MarkdownReader")

loader = MarkdownReader()
documents = loader.load_data(file=Path('./README.md'))

使用了MarkdownReader读取了当前目录下的README.md文件

pdf 格式文件

from pathlib import Path 
from llama_index import download_loader 
PDFReader = download_loader("PDFReader") 
loader = PDFReader() 
documents = loader.load_data(file=Path('./article.pdf'))

import requests
from llama_index import VectorStoreIndex, download_loader
headers = {
}
data = requests.get("https://api.github.com/users/shunwuyu/repos", headers=headers).json()

JsonDataReader = download_loader("JsonDataReader")
loader = JsonDataReader()
documents = loader.load_data(data)
index = VectorStoreIndex.from_documents(documents)
index.query("how many repos are there?")

基于github的api获取了json数据并提问。

综合案例

现在就让我们基于Data Connectors的理解，去开发一个针对langchain文档的知识库RAG应用

安装LlamaIndex

!pip install -q -U llama-index

设置OPANAI_API_KEY

import os 
os.environ['OPENAI_API_KEY'] = 'your valid openai api key'

下载langchain文件并使用数据接口加载

!git clone https://github.com/sugarforever/wtf-langchain.git

wft-langchain这个repo，是langchain的开源教程库，里面的文档都是RAG应用的语料来源

from llama_index import SimpleDirectoryReader 
reader = SimpleDirectoryReader( input_dir="./wtf-langchain", required_exts=[".md"], recursive=True ) 
docs = reader.load_data() #加载数据到文档数组

我们使用SimpleDirectoryReader, 读取了刚刚克隆下来的wtf-langchain目录下的所有markdown格式的文件。

对文档构建索引，生成知识库, 并初始化查询引擎

from llama_index import VectorStoreIndex 
index = VectorStoreIndex.from_documents(docs) 
query_engine = index.as_query_engine() 
response = query_engine.query("什么是WTF LangChain？") 
print(response)

LlamaIndex系列：RAG应用开发和数据连接器详解

从上图看，我们拿到了准确的答案。

总结

在开发RAG应用时，数据加载是非常重要的一个环节。 Data Connectors 是LlamaIndex的第一个核心模块。
操练一些数据接口，开始干活。

参考资料

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

LlamaIndex系列：RAG应用开发和数据连接器详解

前言

Data Connectors

数据连接器接口

连接demos

综合案例

总结

参考资料

LangChain框架介绍：简化开发工作量，实现文档问答、聊天机器人和代码分析

ChatGPT: 领域内最具开创性的工作

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

前言

Data Connectors

数据连接器接口

连接demos

综合案例

总结

参考资料

LangChain框架介绍：简化开发工作量，实现文档问答、聊天机器人和代码分析

ChatGPT: 领域内最具开创性的工作

使用 OpenAI、LangChain 和 LlamaIndex 构建 DevSecOps 知识库

LlamaIndex RAG应用开发的配置选项详解

如何使用Jupyter Notebook编译器配置深度学习环境

使用LangChain的文档加载器进行PDF文档加载