关键词切片技术在信息检索中的应用拓展解析
RAG系统,数据越多效果越好吗?
引言
RAG(Retrieval-Augmented Generation)技术以独特的检索增强生成方式,为降低大型模型幻觉问题提供了新途径。然而,实际应用中存在一个关键疑问:RAG系统中数据量越多是否就效果越好?本文深入探讨数据量如何影响RAG问答效果,并探讨优化策略以适应不断增长的数据。
什么是RAG?
RAG技术将大型语言模型(LLMs)与您的数据结合,解决LLMs在实际应用中的挑战,如模型幻觉、知识更新缓慢和答案可信度问题。它通过动态检索外部知识,结合生成模型组织答案,有效缓解幻觉问题。
RAG工作流程包含:文本解析切片、Embedding向量化建库、检索相关片段和大模型生成答案。
RAG系统:数据越多,效果越好吗?
不同应用场景优化侧重不同。文档助手侧重系统优化,领域知识库问答则需数据系统双优化。海量数据的灌输是否直接提升效果,值得探讨。
实验:数据量影响问答效果
以教育领域问答为例,研究数据量与RAG问答质量的关系。收集176个升学相关问题,基于经典RAG系统及海量领域数据进行测试。结果发现,数据量增加初期显著提升效果,但过量数据可能引发检索退化,影响问答质量。
具体问题分析:大连医科大学问题案例
加入数据后,回答效果出现波动,检索退化导致答案错误。问题在于相关文本的相似性高于相关性,RAG系统难以判断文本与问题的关联度。
语义检索:相似不等于相关
Embedding计算相似度,但无法判断相关性。Cross-Encoder引入自注意力机制,能判断文本与问题的重点匹配程度,提升相关性判断。
两阶段检索框架:QAnything
QAnything系统通过两阶段检索,解决大规模数据检索问题,实现数据量增加与效果提升的正相关。该框架支持离线使用、跨语言问答,并提供一键安装、多知识库联合问答等功能。
最终结果:效果稳定提升
两阶段检索框架在QAnything系统上运行,实验结果显示效果显著提升,数据量增加后问答准确率稳定增长,验证了数据量与效果正相关性。
QAnything应用:AI升学规划师
「AI升学规划师」整合QAnything与有道领世的资源,为用户提供专业、全面的升学规划服务,准确率高达95%,并随数据更新持续提升。
展望:未来优化方向
未来可在两阶段检索基础上进行优化,包括智能切片策略、多路召回、意图分类和Agent集成等方向,进一步提升系统性能。
开源与参考信息
「QAnything」项目开源,受到广泛认可,在GitHub上已有3600多个星标。用户可下载试用,并在GitHub上关注项目更新。
参考资源包括「QAnything」项目、BCEmbedding、RAG调研文档、LlamaIndex RAG、Cross-encoder和Sentence-BERT等。
citespace500问(二)——聚类标签
在探讨聚类标签问题时,我们首先关注节点选择中的“聚类”部分,聚类标签共有60多个问题,让我们逐一解析。
问题1:在使用版本5.6.R3进行Term分析时,有一个聚类标签显示为cwv 19 unication system,但下载文本中并未出现这个短语。在比较中发现,communication system,noun phrases中的该短语正常显示,而聚类标签中却出现异常。能否手动修改聚类标签?答案请参考本人文章:大盖伦的勇气:citespace实用技巧(一):从数据层面修改聚类标签。
问题2:进行关键词聚类后,发现聚类结果未包含个别前期关键词共现分析的高频词和中心度高的词,这样的结果是否合理?答案是目前聚类结果中不存在这类问题。
问题3:在5.7.R1版本软件中进行共被引分析关键词聚类时,Q值基本保持在0.8以上,但S值始终徘徊在0.4~0.45之间。文献共665篇,时间设置为1992-2021年,切片3,如何解决S值问题?答案是,若Q和S值较低,一般需检查是否勾选了网络裁剪,使用pathfinder裁剪后,S值通常会得到显著提升。
问题4:部分老文献信息没有英文关键词,生成聚类时是否将其排除在外?答案是,若数据本身没有关键词,则关键词分析自然不会纳入。
问题5:进行共被引聚类分析后,分析每个聚类中被引用次数最多的文献或中心性最高的文献时,发现这些文献与聚类标签无关。这是为什么?答案是,共被引分析的聚类标签由施引文献的标题或关键词决定,需回到文献本身,了解这些文献被引用的具体目的。
问题6:“cited reference”的功能及作用是什么?书中提到,通过文献共被引得到的是知识基础,而一些论文将其聚类看作是研究前沿。提问者理解,知识基础应是对所分析数据文献所引用的参考文献进行共被引得到,研究前沿则是对原文献进行耦合分析后得到。提问者是否需要将原文献所引用的参考文献再次导入?答案是,理解没有错误,但需注意:节点构成的聚类模块代表知识基础,聚类标签则是由施引文献的关键词或标题提供,指向研究前沿。
问题7:能否人为合并CiteSpace生成的相似聚类?答案是无法合并聚类结果,但聚类标签可以进行修改。具体方法见文章:大盖伦的勇气:citespace实用技巧(一):从数据层面修改聚类标签。
问题8:关于聚类序号不连续的情况,如只显示#0,#2,#4,而#5缺失可能是因为聚类内文献数量少于设置;#1缺失可能是K值设置的问题。如果不修改K值,能否直接将结果用于论文?答案是,聚类标签不连续的根本原因是共现网络没有形成一个连通的大网络。这说明要么是研究领域发展初期,要么检索文献存在不相关性,与K值设置无直接关系。
问题9:使用LLR算法生成聚类标签时,发现图中有些标签并非表格中出现的关键词。为什么?答案是,聚类标签为防止重复,会使用下一个权重较高的关键词作为标签,直到图中标签完全无重复。
问题10:在完成聚类后,发现序号1、3等靠前的cluster丢失,而后面的聚类依然存在。这是正常现象吗?答案是,与问题8相同。
问题11:在进行关键词分析时,有的关键词词频上千但中介中心性只有0.01,而有的关键词词频=2中介中心性>0.1。在阅读相关书籍后仍有疑惑:词频高而中介中心性小意味着什么?答案是,这种情况通常出现在使用网络裁剪后的共性网络中。中介中心性定义为节点在任意两个节点的最短路径中的数量与所有可能的最短路径数量之比。词频与中介中心性并非必然相关,但高频词与更多词产生联系,作为枢纽的概率更大。高频低中介中心性的原因在于citespace的网络裁剪功能,导致一些高频词在分析中被边缘化。
小结:通过分析,聚类相关疑惑主要集中在参数设置、标签修改、标签含义、标签不连续等方面。掌握好基本步骤,如运行分析前勾选pathfinder、检索数据确保查全,对聚类标签进行自定义修改,以及结合文献进行结果解读,有助于解决常见问题。
相关文章
发表评论