RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。
请登录网址 https://demo.ragflow.io 试用 demo。
2025-05-23 Agent 新增 Python/JS 代码执行器组件。
2025-05-05 支持跨语言查询。
2025-03-19 PDF 和 DOCX 中的图支持用多模态大模型去解析得到描述。
2025-02-28 结合互联网搜索(Tavily),对于任意大模型实现类似 Deep Research 的推理功能。
2024-12-18 升级了 DeepDoc 的文档布局分析模型。
2024-08-22 支持用 RAG 技术实现从自然语言到 SQL 语句的转换。
⭐️ 点击右上角的 Star 关注 RAGFlow,可以获取最新发布的实时通知 !🌟
基于深度文档理解,能够从各类复杂格式的非结构化数据中提取真知灼见。真正在无限上下文(token)的场景下快速完成大海捞针测试。
不仅仅是智能,更重要的是可控可解释。多种文本模板可供选择。
文本切片过程可视化,支持手动调整。答案提供关键引用的快照并支持追根溯源。
支持丰富的文件类型,包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等。
全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统。大语言模型 LLM 以及向量模型均支持配置。
如果你并没有在本机安装 Docker(Windows、Mac,或者 Linux), 可以参考文档 Install Docker Engine 自行安装。
1. 确保 vm.max_map_count
不小于 262144:
$ sysctl vm.max_map_count
# 这里我们设为 262144:
$ sudo sysctl -w vm.max_map_count=262144
# 永久修改:在 /etc/sysctl.conf 文件里设置
vm.max_map_count=262144
2. 克隆仓库:
$ git clone https://github.com/infiniflow/ragflow.git
3. 进入 docker 文件夹,利用提前编译好的 Docker 镜像启动服务器:
请注意,目前官方提供的所有 Docker 镜像均基于 x86 架构构建,并不提供基于 ARM64 的 Docker 镜像。如果你的操作系统是 ARM64 架构,请参考这篇文档自行构建 Docker 镜像。
$ cd ragflow/docker
# Use CPU for embedding and DeepDoc tasks:
$ docker compose -f docker-compose.yml up -d
# To use GPU to accelerate embedding and DeepDoc tasks:
# docker compose -f docker-compose-gpu.yml up -d
RAGFlow image tag | Image size (GB) | Has embedding models? | Stable? |
---|---|---|---|
v0.19.1 | ≈9 | ✓ | Stable release |
v0.19.1-slim | ≈2 | ✗ | Stable release |
nightly | ≈9 | ✓ | Unstable nightly build |
nightly-slim | ≈2 | ✗ | Unstable nightly build |
如果你遇到 Docker 镜像拉不下来的问题,可以在 docker/.env 文件内根据变量 RAGFLOW_IMAGE
的注释提示选择华为云或者阿里云的相应镜像:
swr.cn-north-4.myhuaweicloud.com/infiniflow/ragflow
registry.cn-hangzhou.aliyuncs.com/infiniflow/ragflow
4. 服务器启动成功后再次确认服务器状态:
$ docker logs -f ragflow-server
出现以下界面提示说明服务器启动成功:
____ ___ ______ ______ __
/ __ \ / | / ____// ____// /____ _ __
/ /_/ // /| | / / __ / /_ / // __ \| | /| / /
/ _, _// ___ |/ /_/ // __/ / // /_/ /| |/ |/ /
/_/ |_|/_/ |_|\____//_/ /_/ \____/ |__/|__/
* Running on all addresses (0.0.0.0)
如果您在没有看到上面的提示信息出来之前,就尝试登录 RAGFlow,你的浏览器有可能会提示 network anormal
或 网络异常
。
5. 在你的浏览器中输入你的服务器对应的 IP 地址并登录 RAGFlow。
6. 在 service_conf.yaml.template 文件的 user_default_llm
栏配置 LLM factory,并在 API_KEY
栏填写和你选择的大模型相对应的 API key。
系统配置涉及以下三份文件:
请务必确保 .env 文件中的变量设置与 service_conf.yaml.template 文件中的配置保持一致!
如需更新默认的 HTTP 服务端口(80), 可以在 docker-compose.yml 文件中将配置 80:80
改为 <YOUR_SERVING_PORT>:80
。
所有系统配置都需要通过系统重启生效:
$ docker compose -f docker-compose.yml up -d
RAGFlow 默认使用 Elasticsearch 存储文本和向量数据。如果要切换为 Infinity,可以按照下面步骤进行:
# 停止所有容器运行
$ docker compose -f docker/docker-compose.yml down -v
# 设置 docker/.env 目录中的 DOC_ENGINE 为 infinity
# 启动容器
$ docker compose -f docker-compose.yml up -d
Infinity 目前官方并未正式支持在 Linux/arm64 架构下的机器上运行。
1. 安装 uv。如已经安装,可跳过本步骤:
pipx install uv pre-commit
export UV_INDEX=https://mirrors.aliyun.com/pypi/simple
2. 下载源代码并安装 Python 依赖:
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/
uv sync --python 3.10 --all-extras
uv run download_deps.py
pre-commit install
3. 通过 Docker Compose 启动依赖的服务(MinIO, Elasticsearch, Redis, and MySQL):
docker compose -f docker/docker-compose-base.yml up -d
4. 如果无法访问 HuggingFace,可以把环境变量 HF_ENDPOINT
设成相应的镜像站点:
export HF_ENDPOINT=https://hf-mirror.com
5. 如果你的操作系统没有 jemalloc,请按照如下方式安装:
# ubuntu
sudo apt-get install libjemalloc-dev
# centos
sudo yum install jemalloc
6. 启动后端服务:
source .venv/bin/activate
export PYTHONPATH=$(pwd)
bash docker/launch_backend_service.sh
7. 安装前端依赖:
cd web
npm install
8. 启动前端服务:
npm run dev
9. 开发完成后停止 RAGFlow 前端和后端服务:
pkill -f "ragflow_server.py|task_executor.py"
详见 RAGFlow Roadmap 2025 。
RAGFlow 只有通过开源协作才能蓬勃发展。秉持这一精神,我们欢迎来自社区的各种贡献。如果您有意参与其中,请查阅我们的 贡献者指南 。
扫二维码添加 RAGFlow 小助手,进 RAGFlow 交流群。