大模型RAGFlow原理篇:如何结合结构化数据搭建本地智能投研系统_进行_检索_评估
发布日期:2025-05-24 02:09 点击次数:56
幻影视界今天分享的是大模型赋能投研报告:《RAGFlow 原理篇:如何结合结构化数据搭建本地智能投研系统》,报告由国金证券发布。
研究报告内容摘要如下
RAG 架构的意义及痛点
DeepSeek-R1 模型以开源方式问世带来广泛影响,LLM 大模型发展由基础设置转向模型应用,但同时大模型仍面临模 型“幻觉”、过时信息以及专业知识匮乏三个困境。RAG 架构可以通过搭建存储知识信息的数据库,并从中检索具有及 时性、专业性的信息补充大语言模型的文本生成与逻辑思考过程。 但在 RAG 的工作流程中,存在多个痛点问题影响其使用效果:在文档解析入库的流程中存在如何高质量完成文本识别 与分块、如何对分块信息进一步处理、如何选择合适的 Embedding 模型等痛点问题;在信息检索输出的流程中存在如 何高质量进行内容检索、如何选择合适的重排序模型以及如何进行合适的 Prompt 处理衔接 RAG 与大模型等痛点问题。
展开剩余80%追求高质量的 RAGFlow 开源解决方案
由于大模型的快速发展,市面上已经存在 FastGPT、Dify、RAGFlow 等多种开源 RAG 架构解决方案。其中,由于 RAGFlow 追求“Quality in,Quality out”的高质量要求,故将 RAGFlow 作为我们的最终选择。 针对 RAG 架构中可能存在的痛点问题,RAGFlow 努力给出自己的解决方案。在文本解析入库的流程中,RAGFlow 使用 自己开发的 DeepDoc 组件实现复杂文档的解析与分块,并针对分块后的文本信息引入 Raptor 召回增强策略和知识图 谱策略进行进一步处理,同时提供了丰富的 Embedding 模型方便用户选型;在信息检索输出流程中,RAGFlow 采用关 键词搜索+向量搜索的双路召回策略,并针对检索到的文本块,使用关键词相似度+Rerank 模型相似度两种方法计算加 权平均相似度进行文本块的重排序,从而保证信息检索质量,并使用合适的 Prompt 将知识信息传递给大模型。 值得注意的是,RAGFlow 同样支持结构化解析与检索,传入 xlsx 或 csv/txt 格式的文件后,选择“Table”模式进行 解析,RAGFlow 会将数据的每行解析为一个文本块,以列名对应单元格值的方式组织,并高质量得保留了重要信息。
RAGFlow 效果评估与检验
在厘清 RAGFlow 整体实施方案的基础上,进行其效果的评估检验,整个评估流程基于 RAGAs 评估框架进行,并选定 15 篇金融领域不同方向的研究报告作为评估样本,同时针对样本进行问题与答案的设计;后续评估基于此进行。 具体而言,首先针对不同的文档解析入库、不同的信息检索输出配置方案进行评估对比,并最终得到较优的配置方案 搭配;其次评估不同 Embedding 与 Reranker 模型搭配的具体表现,并选择较优的模型搭配方案;最终,针对 General 文档解析、Raptor 召回增强以及信息检索配置这三个过程中涉及到的具体参数进行寻优。 最终,通过对 RAGFlow 效果的评估与检验,可以认为 RAGFlow 优于 Dify(默认配置)的检索输出效果,并汇总整体的 评估流程,可得较优的 RAGFlow 全流程配置方案:Embedding 模型选择 SFR-Embedding-Mistral、Reranker 模型选择 bce-reranker-base_v1;在解析入库时使用 General 方法、设置最大 token 数为 512 或 1024 进行文档解析,同时选 择开启社区摘要的知识图谱功能;在检索输出时,开启多轮优化、不开启知识推理功能。若想要减少文档解析时间, 可以选择关闭知识图谱,开启 Raptor 召回增强策略,同样可以获得较有的解析与检索质量。
幻影视界整理分享报告原文节选如下:
本文仅供参考,不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。
发布于:广东省