微软开源了基于图的 RAG 工具 GraphRAG,可以在私有或以前未见过的数据集上进行问题解答。
GraphRAG 通过创建知识图谱来增强模型的推理和生成性能,使用 LLM GPT-4 对 GraphRAG 和传统 RAG 进行评估, GraphRAG 在全面性和多样性方面优于传统 RAG。
与使用纯文本片段的简单语义搜索不同,GraphRAG 从原始文本中提取知识图谱、构建知识模块结构、生成摘要,帮助大模型更好地捕捉文本中的复杂联系和交互,来增强其生成、检索等能力。
GraphRAG 使用大型语言模型从任何文本文档集合中自动提取丰富的知识图谱。这种基于图的数据索引最令人兴奋的功能之一是,它能够在用户查询之前报告数据的语义结构。它以分层方式检测密集连接节点的 "社区",在从高级主题到低级主题的多个层次对图进行分割。
使用 LLM 对这些社区中的每一个进行总结,就能创建数据的分层总结,从而提供数据集的概览,而无需事先知道要问哪些问题。每个社区都是描述其实体及其关系的社区摘要的基础。
这种方法尤其适合回答全局性问题。
GitHub 仓库 | 文档