Instruction Guided Content Selection (IGCS)

github2025-07-24 更新2025-08-04 收录

下载链接：

https://github.com/shmuelamar/igcs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于TACL论文《A Unifying Scheme for Extractive Content Selection Tasks》，旨在统一许多任务，如提取摘要、证据检索和论点挖掘，在给定源中选择提取范围的相同方案下。

This dataset is intended for the TACL paper *A Unifying Scheme for Extractive Content Selection Tasks*, which aims to unify a range of tasks including extractive summarization, evidence retrieval, and argument mining under a unified scheme that selects extraction spans from given source texts.

创建时间：

2025-07-19

原始信息汇总

数据集概述：Instruction Guided Content Selection (IGCS)

基本信息

名称：Instruction Guided Content Selection (IGCS)
论文标题：A Unifying Scheme for Extractive Content Selection Tasks
论文链接：http://arxiv.org/abs/2507.16922
代码库：https://github.com/shmuelamar/igcs
Hugging Face演示：https://huggingface.co/spaces/shmuelamar/igcs-demo
Hugging Face模型集合：https://huggingface.co/collections/shmuelamar/igcs-instruction-guided-content-selection-687c92705699bb4a7ae0045e

数据集内容

数据集目录：./igcs-dataset
数据集划分：train, dev, test
包含任务：extractive summarization, evidence retrieval, argument mining等

关键特点

统一框架：将多种抽取式内容选择任务统一到同一框架下。
任务多样性：训练时混合多种内容选择任务可提升LLM在新任务上的表现。
处理策略：对于需要较长选择的任务，逐文档处理效果优于批量处理。

使用方式

Python库安装： bash pip install -U igcs

或安装完整依赖： bash pip install igcs[train]

模型训练

示例训练命令： bash accelerate launch src/igcs/train_model/init.py --output_dir "my-trained-model" --train_dataset ReverseInstructions --model_name meta-llama/Meta-Llama-3-8B-Instruct

引用格式

bibtex @misc{amar2025unifyingschemeextractivecontent, title={A Unifying Scheme for Extractive Content Selection Tasks}, author={Shmuel Amar and Ori Shapira and Aviv Slobodkin and Ido Dagan}, year={2025}, eprint={2507.16922}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.16922}, }

许可证

代码采用MIT和APACHE2双重许可
数据集遵循其原始许可

搜集汇总

数据集介绍

构建方式

Instruction Guided Content Selection (IGCS) 数据集的构建基于多任务统一框架，旨在整合传统的抽取式内容选择任务，如摘要生成、证据检索和论点挖掘等。该数据集通过指令引导的方式，将不同任务的文本片段选择需求统一为同一范式。具体构建过程包括从多个公开数据源（如OpenAsp、SciFact、DebateSum等）收集原始文本，并通过人工标注或自动化方法生成与指令对应的文本片段选择。数据集进一步通过严格的预处理和验证流程，确保标注质量与任务多样性。

特点

IGCS 数据集的核心特点在于其任务通用性与指令驱动的灵活性。数据集覆盖了广泛的抽取式内容选择场景，每个样本均包含源文本、任务指令及对应的文本片段标注。其独特之处在于支持多任务联合训练，通过指令区分不同任务需求，从而提升模型在未见任务上的泛化能力。数据集还针对长文本选择优化了单文档处理模式，显著提升了模型在复杂场景下的表现。此外，数据集提供了丰富的元数据，包括片段匹配模式和任务类型标注，便于深入研究模型行为。

使用方法

使用IGCS数据集可通过官方提供的Python库（igcs）实现高效开发。安装后，用户可通过简洁的API完成指令生成、模型调用和结果解析全流程。典型工作流包括：构造包含任务指令和源文档的输入提示，调用预训练模型（如GPT-4或Llama-3）生成选择结果，最后通过模糊匹配算法将预测片段定位到原文档。数据集支持零样本学习、上下文学习等多种预测模式，并提供了完整的训练脚本，用户可基于GenCS-Union等子集微调自定义模型。所有功能均通过详尽的示例代码和Hugging Face演示空间进行了可视化展示。

背景与挑战

背景概述

Instruction Guided Content Selection (IGCS) 数据集由Shmuel Amar等研究人员于2025年提出，旨在解决自然语言处理领域中提取式内容选择任务的碎片化问题。传统上，诸如摘要生成、证据检索和论点挖掘等任务各自独立研究，缺乏统一框架。IGCS通过指令引导的范式，将这些任务整合到一个共享的提取式内容选择方案中，显著提升了大型语言模型在跨任务场景下的泛化能力。该工作发表于TACL期刊，其创新性体现在通过多任务混合训练策略，实现了知识迁移的优化，为相关领域的研究提供了新的方法论基础。

当前挑战

IGCS面临的核心挑战主要体现在两个方面：领域问题的复杂性与构建过程的技术难度。在领域层面，不同内容选择任务对文本粒度的需求差异显著，例如证据检索要求精确短语匹配，而摘要生成需处理更长文本跨度，这种异构性增加了统一建模的难度。构建过程中，数据集需要协调来自OpenAsp、SciFact等多源数据的许可协议，同时确保标注一致性。此外，处理长文档时模型性能下降的问题，以及模糊匹配算法中阈值设定的敏感性，均为实际应用中的关键技术瓶颈。

常用场景

经典使用场景

在自然语言处理领域，Instruction Guided Content Selection (IGCS) 数据集广泛应用于文本摘要、证据检索和论点挖掘等任务。通过统一的指令引导框架，研究者能够高效地从源文本中提取相关文本片段，满足不同下游任务的需求。该数据集特别适用于需要精确控制内容选择范围的场景，如法律文档分析、新闻报道摘要生成等。

解决学术问题

IGCS数据集解决了传统内容选择任务中存在的碎片化问题，将多种提取式任务统一到一个框架下。它不仅提升了模型在跨任务上的泛化能力，还通过多任务混合训练显著提高了大型语言模型在新任务上的表现。这一突破为自然语言处理中的迁移学习研究提供了重要支持。

衍生相关工作

基于IGCS数据集，研究者开发了多个创新性工作，包括GenCS联合训练框架和IGCSBench评估基准。这些衍生工作进一步推动了指令引导内容选择技术的发展，其中部分成果已在ACL、EMNLP等顶级会议上发表，形成了完整的技术生态链。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集