FilCo:一种强大的检索增强生成上下文过滤方法

在当今信息爆炸的时代,如何从海量文本中快速准确地检索出所需信息并生成高质量的回答,一直是自然语言处理领域的一个重要挑战。检索增强生成(Retrieval-Augmented Generation, RAG)作为一种将信息检索与文本生成相结合的方法,近年来受到了广泛关注。然而,传统的RAG方法往往会检索出大量冗余或无关的上下文信息,不仅增加了计算开销,还可能引入噪声,影响生成质量。

为了解决这一问题,来自卡内基梅隆大学的研究团队提出了一种名为FilCo的新型上下文过滤方法。FilCo通过学习筛选检索到的相关段落,有效地提高了RAG的效果。本文将详细介绍FilCo的工作原理、实现方法以及在多个任务上的表现。

FilCo的工作原理

FilCo的核心思想是在检索和生成之间引入一个上下文过滤步骤。具体来说,FilCo包含以下三个主要组件:

检索模块: 使用密集段落检索器(Dense Passage Retriever, DPR)从大规模语料库中检索出与输入查询相关的Top-K个段落。
上下文过滤模块: 学习从检索到的段落中筛选出最相关和有用的句子,形成精简的上下文。
生成模块: 基于过滤后的上下文生成最终答案。

FilCo工作流程

FilCo的实现方法

为了实现高效的上下文过滤,FilCo采用了以下三种策略来衡量检索段落及其中各个句子的效用:

蕴含策略: 计算句子与查询之间的蕴含分数,保留高分句子。
词汇重叠策略: 计算句子与查询的词汇重叠程度,保留重叠度高的句子。
条件互信息策略: 计算句子对生成答案的条件互信息,保留信息量大的句子。

FilCo首先使用这些策略对检索到的段落进行打分,然后训练一个上下文过滤模型来学习如何根据这些分数选择最优的上下文。具体步骤如下:

使用measure_ctxs.py脚本对检索到的段落进行打分:

python measure_ctxs.py \
--dataset_path "./datasets/nq/base/test.json" \
--output_path  "./datasets/nq/scored/test.json" \
--metric_name  "strinc" "lexical" "cxmi" \
--n_contexts 5 \
--prefix "Given the ['context', 'question'], predict the answer to the question:"

使用get_inputs.py脚本生成上下文过滤模型的训练数据:

python get_inputs.py \
--dataset_path "./datasets/nq/scored/train.json" \
--output_path "./datasets/nq/mctx/em/train_em_top1.json" \
--input_list question passage --output_list filtered \
--n_examples 0 --n_contexts 1 \
--filter_criteria strinc --print_example

使用train.py脚本训练上下文过滤模型:

python train.py \
--train_data_path "./datasets/nq/mctx/em/train_em_top1.json" \
--eval_data_path "./datasets/nq/mctx/em/dev_em_top1.json" \
--test_data_path "./datasets/nq/mctx/em/test_em_top1.json" \
--output_dir "./checkpoints/nq-mctx_filco-em" \
--do_train --do_eval --do_predict

使用训练好的模型对测试集进行上下文过滤:

python query.py \
--dataset_path "./datasets/nq/mctx/em/test_em_top1.json" \
--output_path "./output/nq/mctx/filco-em_tuned-ft5.json" \
--model_name_or_path "./checkpoints/nq-mctx_filco-em"