LongFaith

github2025-02-22 更新2025-03-04 收录

下载链接：

https://github.com/IDEA-FinAI/LongFaith

下载链接

链接失效反馈

官方服务：

资源简介：

LongFaith是一个用于增强长上下文推理的忠实合成数据集。

LongFaith is a faithful synthetic dataset aimed at enhancing long-context reasoning.

创建时间：

2025-02-17

原始信息汇总

LongFaith 数据集概述

数据集简介

名称: LongFaith
目的: 增强大型语言模型(LLMs)在长上下文推理能力
特点: 提供忠实合成的训练数据

数据集内容

评估数据集

longbench:
- 2wikimqa
- hotpotqa
- multifiedqa_en
- musique
- qasper
multihop:
- 2wikimultihopqa
- hotpotqa
- musique

训练数据集

longfaith_syn:
- gpt-4o-mini
- Meta-Llama-3.1-8B-Instruct
- Meta-Llama-3.1-70B-Instruct-AWQ-INT4
- Qwen2.5-7B-Instruct

获取方式

下载地址: https://drive.google.com/drive/folders/1f2306gR41glW9PzO6dJz8X5J53XsSNtC
Hugging Face: https://huggingface.co/collections/cehao/longfaith-67b61f7b17ccb022c68ba22d

模型信息

官方模型: Meta-Llama-3.1-8B-Instruct-LongFaith-PO
模型ID: cehao/Meta-Llama-3.1-8B-Instruct-LongFaith-PO

评估方法

bash python predict.py --model_path cehao/Meta-Llama-3.1-8B-Instruct-LongFaith-PO --datasets multihop --prompt coc python predict.py --model_path cehao/Meta-Llama-3.1-8B-Instruct-LongFaith-PO --datasets longbench --prompt coc

训练方法

框架: LLaMA-Factory (https://github.com/hiyouga/LLaMA-Factory)
训练类型: 监督微调和偏好优化

引用信息

python @misc{yang2025longfaith, title={LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data}, author={Cehao Yang and Xueyuan Lin and Chengjin Xu and Xuhui Jiang and Shengjie Ma and Aofan Liu and Hui Xiong and Jian Guo}, year={2025}, eprint={2502.12583}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.12583}, }

许可协议

许可证类型: MIT License

搜集汇总

数据集介绍

构建方式

LongFaith数据集的构建采用了合成忠实数据的方法，通过GPT-4o-mini生成具有长上下文推理能力的数据，进而对LLM模型进行训练，以提高模型在处理长文本时的推理性能。

特点

该数据集的特点在于其合成数据的高忠实度，以及专门针对长上下文推理任务的优化设计，使得训练出的模型能够在处理复杂的逻辑推理问题时展现出更优异的性能。

使用方法

用户可以通过Google Drive获取训练和评估数据集，同时，项目提供了详细的安装指南和模型运行示例，用户可以按照README中的说明搭建环境，并使用LLaMA-Factory进行模型的监督微调和偏好优化。

背景与挑战

背景概述

LongFaith数据集旨在提升大型语言模型（LLM）在长文本上下文推理方面的能力。该数据集的创建源于对现有数据集在长文本处理上的不足，以及对于LLM模型在此类任务上性能提升的需求。由IDEA-FinAI团队开发，LongFaith数据集通过合成忠实的数据，增强模型在长文本情境下的推理能力。该数据集的构建时间为2023年，主要研究人员包括Cehao Yang、Xueyuan Lin等，核心研究问题聚焦于如何通过合成数据提高LLM的长文本推理性能。LongFaith数据集的发布对LLM领域的研究产生了重要影响，为相关领域的研究提供了新的视角和数据支持。

当前挑战

LongFaith数据集面临的挑战主要包括：1）在构建过程中，如何生成忠实且具有挑战性的长文本上下文数据，以有效提升LLM的推理能力；2）解决长文本推理任务中的领域问题，例如在处理具有复杂逻辑推理需求的任务时，如何确保模型能够准确引用文档并进行逐步推理。此外，数据集的构建还需克服技术挑战，如高效地合成数据、优化模型训练过程以及确保数据的质量和一致性。

常用场景

经典使用场景

LongFaith数据集针对长文本上下文推理任务，提供了忠实合成的数据，其经典使用场景在于训练和评估大型语言模型，如Meta-Llama-3.1系列模型，以提升其在处理长文本时的推理能力。数据集包含了多个子集，如2wikimqa、hotpotqa等，这些子集为模型训练提供了丰富的多样化输入，有助于模型捕获长文本中的复杂逻辑关系。

实际应用

在实际应用中，LongFaith数据集可用于提升聊天机器人、智能客服等场景下对长文本的处理能力，使得这些系统能够更好地理解用户的长篇输入并提供准确的回答。此外，它在法律、医学等需要处理大量文档和信息分析的领域也具有潜在的应用价值。

衍生相关工作

基于LongFaith数据集，研究者可以进一步开展相关工作，如开发新的长文本推理模型、设计更高效的合成数据生成算法，以及探索数据集在不同语言和文化背景下的适应性，为多语言自然语言处理领域带来新的研究视角和进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集