FActScore
收藏arXiv2025-02-07 收录
下载链接:
https://github.com/shmsw25/FActScore
下载链接
链接失效反馈资源简介:
该数据集通过比较生成的传记与给定的知识源,使用FActScore来评估大型语言模型在传记生成中的事实准确性。此外,它还通过响应比和原子事实数量等指标来评估事实精确度。该任务旨在基于生成方法,对大型语言模型输出的传记事实准确性进行评估。
The FActScore dataset is employed to evaluate the factual accuracy of large language models (LLMs) in generating diverse content. This dataset comprises 500 English evaluation samples, sourced from biographical information on Wikipedia. An innovative approach is adopted, where the generated text is decomposed into fundamental facts, and the scores of fact components recognized by knowledge sources are calculated.
提供机构:
FActScore team
原始信息汇总
FActScore 数据集概述
基本信息
- 论文标题: FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation
- 会议: EMNLP 2023
- 论文地址: https://arxiv.org/abs/2305.14251
- 代码库: https://github.com/shmsw25/FActScore
- PIP包: factscore
数据集内容
- 标注数据: 包含论文第3节和第4.2节中报告的事实精确度的人工标注数据。
- 下载地址: Google Drive
- 未标注数据: 包含论文第4.3节中12种不同语言模型的FActScore结果。
- 下载地址: Google Drive
数据格式
- 标注数据: 未明确说明格式,但包含人工标注的事实精确度。
- 未标注数据: 每行为一个字典,包含以下字段:
prompt: 输入模型的初始提示facts: 模型分解的原子事实LLAMA+NP_labels: 由LLAMA+NP验证的事实标签ChatGPT_labels: 由ChatGPT验证的事实标签
使用方法
-
安装: bash pip install --upgrade factscore python -m spacy download en_core_web_sm
-
下载数据: bash python -m factscore.download_data --llama_7B_HF_path "llama-7B"
-
运行FActScore: bash python -m factscore.factscorer --input_path {input_path} --model_name {estimator_name} --openai_key {openai_key}
评估指标
- FActScore: 事实精确度评分
- respond_ratio: 响应比例(非拒绝回答的比例)
- num_facts_per_response: 每个响应的平均原子事实数
支持的语言模型
- 推荐模型:
retrieval+ChatGPTretrieval+llama+npm
自定义知识源
- 格式:
.jsonl文件,每行包含title和text字段。 - 注册知识源: python fs.register_knowledge_source(name_of_your_knowledge_source, data_path=path_to_jsonl_file, db_path=path_to_output_db_file)
引用
bibtex @inproceedings{ factscore, title={ {FActScore}: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation }, author={ Min, Sewon and Krishna, Kalpesh and Lyu, Xinxi and Lewis, Mike and Yih, Wen-tau and Koh, Pang Wei and Iyyer, Mohit and Zettlemoyer, Luke and Hajishirzi, Hannaneh }, year={ 2023 }, booktitle = { EMNLP }, url={ https://arxiv.org/abs/2305.14251 } }
搜集汇总
数据集介绍

构建方式
FActScore数据集的构建基于对长文本生成中事实精确度的细粒度评估。研究者通过人工标注的方式,对生成文本中的事实进行原子级别的分解与验证,确保每个事实单元都能独立评估其准确性。数据集的核心知识来源为2023年4月的维基百科数据,同时支持用户自定义知识源。数据集的构建过程包括对生成文本的原子事实分解、基于知识源的验证以及人工标注的交叉验证,确保了数据的高质量与可靠性。
特点
FActScore数据集的特点在于其细粒度的事实评估能力。它不仅提供了对生成文本的整体事实精确度评分,还支持对每个原子事实的独立验证。数据集涵盖了多种语言模型的生成结果,并提供了基于ChatGPT和LLAMA+NP的两种验证标签,便于用户进行对比分析。此外,数据集还支持自定义知识源,使其能够灵活适应不同领域的评估需求。通过提供详细的响应比例、原子事实数量等统计信息,FActScore为研究者提供了全面的评估工具。
使用方法
使用FActScore数据集时,用户可以通过命令行或Python API调用其评估功能。首先,用户需安装FActScore的PIP包,并下载所需的知识源数据。随后,用户可以通过指定输入路径、模型名称和OpenAI API密钥来运行评估。数据集支持对生成文本的原子事实分解与验证,并提供详细的评分结果,包括事实精确度、响应比例和原子事实数量等。用户还可以通过自定义知识源来扩展数据集的适用范围,或使用预标注的数据进行快速评估与验证。
背景与挑战
背景概述
FActScore数据集由Sewon Min等研究人员于2023年发布,旨在解决长文本生成中的事实精确性评估问题。该数据集的核心研究问题是通过细粒度的原子事实评估,量化生成文本的事实准确性。FActScore的提出为自然语言处理领域中的文本生成模型提供了一个新的评估标准,特别是在生成内容的可信度和准确性方面具有重要意义。该数据集的研究成果已在EMNLP 2023会议上发表,并得到了广泛关注。
当前挑战
FActScore数据集在构建和应用过程中面临多重挑战。首先,长文本生成中的事实精确性评估本身具有复杂性,如何将生成内容分解为原子事实并进行准确标注是一个技术难题。其次,数据集的构建依赖于大规模的知识源(如Wikipedia),如何高效地从这些知识源中提取相关信息并确保其时效性是一个关键挑战。此外,评估过程中涉及多个模型(如ChatGPT和LLAMA)的协同工作,如何确保不同模型之间的评估结果一致性也是一个重要问题。最后,数据集的扩展性和通用性仍需进一步优化,以适应更多样化的文本生成任务和领域。
常用场景
经典使用场景
FActScore数据集在自然语言处理领域中被广泛用于评估长文本生成模型的事实准确性。通过细粒度的原子事实分解与验证,该数据集能够精确衡量生成文本中每个事实单元的准确性,从而为模型优化提供可靠的数据支持。其经典使用场景包括对生成式模型(如GPT-4、ChatGPT等)在传记生成任务中的表现进行评估,帮助研究者识别模型在事实性上的不足。
实际应用
在实际应用中,FActScore数据集被广泛用于评估和优化生成式模型在知识密集型任务中的表现。例如,在自动生成新闻摘要、技术文档或教育内容时,FActScore能够帮助开发者识别并修正模型生成文本中的事实错误,从而提高内容的可信度与实用性。此外,该数据集还可用于构建更智能的问答系统,确保系统生成的回答基于准确的事实依据。
衍生相关工作
FActScore数据集的发布催生了一系列相关研究工作,特别是在生成式模型的事实性评估与改进领域。例如,基于FActScore的评估框架,研究者开发了多种改进模型事实准确性的方法,如基于检索增强的生成模型(Retrieval-Augmented Generation)和基于知识图谱的生成优化技术。此外,FActScore还被用于构建更细粒度的事实性评估基准,推动了生成式模型在开放域问答、对话系统等任务中的应用。
以上内容由遇见数据集搜集并总结生成



