万字长文|RAG全解析:文档切割、多路召回、向量数据库选型
最近收到不少读者的催促,希望能够了解更多关于RAG的相关知识。RAG已成为面试中的一个重要考点,但许多人对其理解仍停留在“给大模型外挂一个知识库”的表面层次。实际上,RAG有着更为复杂的流程和众多细节需要掌握。 为了帮助大家更好地理解和掌握RAG的相关知识,我整理了一些近期大厂高频出现的RAG面试题: 1. **什么是RAG?** - RAG的全称是Retrieval-Augmented Generation,意思是“检索增强生成”。核心思想是先从外部知识库中检索出与用户问题相关的资料,然后将这些资料作为增强上下文,与用户的问题一起交给大模型进行生成回答。 2. **RAG整体工作流程如何?** - RAG的工作流程分为索引阶段(离线)和查询阶段(在线)。索引阶段主要包括文档加载、切割、向量化和存入向量数据库;查询阶段则包括用户提问向量化、相似度检索、构造增强Prompt和大模型生成回答。 3. **微调和RAG的区别是什么?** - 微调是指对已经预训练好的大模型进行进一步训练,使其在特定领域或任务上表现更好。而RAG则是通过检索外部知识库来增强大模型的回答,无需重新训练模型。 4. **文档切割策略有哪些?** - 文档切割策略主要有固定大小切割、递归字符切割、基于文档结构的切割和语义切割等。每种策略都有其适用场景和优缺点。 5. **Re-rank是什么?** - Re-rank是对检索结果进行重排序的过程,目的是提高检索结果的准确性。它通过Cross-Encoder模型对检索结果进行细化调整,从而提高最终回答的质量。 6. **Embedding有哪些算法?** - Embedding算法的发展历程是从静态词向量到上下文嵌入再到现代的多粒度、多功能和多语言的Embedding模型。 7. **什么是向量数据库?** - 向量数据库用于高效存储和检索向量,支持毫秒级的近似最近邻搜索(ANN)。常用的索引结构包括HNSW、IVF和PQ等。 8. **什么是多路召回?** - 多路召回是指采用多种召回通道(如向量检索、关键词检索和知识图谱检索)并最终合并结果的策略,以提高召回的全面性和准确性。 9. **如何量化RAG的效果?** - RAG的效果可以通过召回率、精确率和NDCG等指标进行评估。此外,还可以通过RAGAS等框架进行详细的评估。 10. **什么是大模型幻觉?如何降低幻觉?** - 大模型幻觉指的是模型自信地说出一些看似合理的但实际上错误的信息。降低幻觉的方法包括Prompt工程约束、输出验证、领域微调和不确定性量化等。 以上就是RAG相关的核心知识点,希望能帮助大家更好地理解和掌握RAG技术。希望通过这次详细解读,大家不仅能应付面试,还能真正理解企业级RAG系统的应用场景和设计思路。