five

Instruction Guided Content Selection (IGCS)

收藏
github2025-07-24 更新2025-08-04 收录
下载链接:
https://github.com/shmuelamar/igcs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于TACL论文《A Unifying Scheme for Extractive Content Selection Tasks》,旨在统一许多任务,如提取摘要、证据检索和论点挖掘,在给定源中选择提取范围的相同方案下。

This dataset is intended for the TACL paper *A Unifying Scheme for Extractive Content Selection Tasks*, which aims to unify a range of tasks including extractive summarization, evidence retrieval, and argument mining under a unified scheme that selects extraction spans from given source texts.
创建时间:
2025-07-19
原始信息汇总

数据集概述:Instruction Guided Content Selection (IGCS)

基本信息

  • 名称:Instruction Guided Content Selection (IGCS)
  • 论文标题:A Unifying Scheme for Extractive Content Selection Tasks
  • 论文链接:http://arxiv.org/abs/2507.16922
  • 代码库:https://github.com/shmuelamar/igcs
  • Hugging Face演示:https://huggingface.co/spaces/shmuelamar/igcs-demo
  • Hugging Face模型集合:https://huggingface.co/collections/shmuelamar/igcs-instruction-guided-content-selection-687c92705699bb4a7ae0045e

数据集内容

  • 数据集目录:./igcs-dataset
  • 数据集划分:train, dev, test
  • 包含任务:extractive summarization, evidence retrieval, argument mining等

关键特点

  1. 统一框架:将多种抽取式内容选择任务统一到同一框架下。
  2. 任务多样性:训练时混合多种内容选择任务可提升LLM在新任务上的表现。
  3. 处理策略:对于需要较长选择的任务,逐文档处理效果优于批量处理。

使用方式

  • Python库安装: bash pip install -U igcs

    或安装完整依赖: bash pip install igcs[train]

模型训练

  • 示例训练命令: bash accelerate launch src/igcs/train_model/init.py --output_dir "my-trained-model" --train_dataset ReverseInstructions --model_name meta-llama/Meta-Llama-3-8B-Instruct

引用格式

bibtex @misc{amar2025unifyingschemeextractivecontent, title={A Unifying Scheme for Extractive Content Selection Tasks}, author={Shmuel Amar and Ori Shapira and Aviv Slobodkin and Ido Dagan}, year={2025}, eprint={2507.16922}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.16922}, }

许可证

  • 代码采用MIT和APACHE2双重许可
  • 数据集遵循其原始许可
搜集汇总
数据集介绍
main_image_url
构建方式
Instruction Guided Content Selection (IGCS) 数据集的构建基于多任务统一框架,旨在整合传统的抽取式内容选择任务,如摘要生成、证据检索和论点挖掘等。该数据集通过指令引导的方式,将不同任务的文本片段选择需求统一为同一范式。具体构建过程包括从多个公开数据源(如OpenAsp、SciFact、DebateSum等)收集原始文本,并通过人工标注或自动化方法生成与指令对应的文本片段选择。数据集进一步通过严格的预处理和验证流程,确保标注质量与任务多样性。
特点
IGCS 数据集的核心特点在于其任务通用性与指令驱动的灵活性。数据集覆盖了广泛的抽取式内容选择场景,每个样本均包含源文本、任务指令及对应的文本片段标注。其独特之处在于支持多任务联合训练,通过指令区分不同任务需求,从而提升模型在未见任务上的泛化能力。数据集还针对长文本选择优化了单文档处理模式,显著提升了模型在复杂场景下的表现。此外,数据集提供了丰富的元数据,包括片段匹配模式和任务类型标注,便于深入研究模型行为。
使用方法
使用IGCS数据集可通过官方提供的Python库(igcs)实现高效开发。安装后,用户可通过简洁的API完成指令生成、模型调用和结果解析全流程。典型工作流包括:构造包含任务指令和源文档的输入提示,调用预训练模型(如GPT-4或Llama-3)生成选择结果,最后通过模糊匹配算法将预测片段定位到原文档。数据集支持零样本学习、上下文学习等多种预测模式,并提供了完整的训练脚本,用户可基于GenCS-Union等子集微调自定义模型。所有功能均通过详尽的示例代码和Hugging Face演示空间进行了可视化展示。
背景与挑战
背景概述
Instruction Guided Content Selection (IGCS) 数据集由Shmuel Amar等研究人员于2025年提出,旨在解决自然语言处理领域中提取式内容选择任务的碎片化问题。传统上,诸如摘要生成、证据检索和论点挖掘等任务各自独立研究,缺乏统一框架。IGCS通过指令引导的范式,将这些任务整合到一个共享的提取式内容选择方案中,显著提升了大型语言模型在跨任务场景下的泛化能力。该工作发表于TACL期刊,其创新性体现在通过多任务混合训练策略,实现了知识迁移的优化,为相关领域的研究提供了新的方法论基础。
当前挑战
IGCS面临的核心挑战主要体现在两个方面:领域问题的复杂性与构建过程的技术难度。在领域层面,不同内容选择任务对文本粒度的需求差异显著,例如证据检索要求精确短语匹配,而摘要生成需处理更长文本跨度,这种异构性增加了统一建模的难度。构建过程中,数据集需要协调来自OpenAsp、SciFact等多源数据的许可协议,同时确保标注一致性。此外,处理长文档时模型性能下降的问题,以及模糊匹配算法中阈值设定的敏感性,均为实际应用中的关键技术瓶颈。
常用场景
经典使用场景
在自然语言处理领域,Instruction Guided Content Selection (IGCS) 数据集广泛应用于文本摘要、证据检索和论点挖掘等任务。通过统一的指令引导框架,研究者能够高效地从源文本中提取相关文本片段,满足不同下游任务的需求。该数据集特别适用于需要精确控制内容选择范围的场景,如法律文档分析、新闻报道摘要生成等。
解决学术问题
IGCS数据集解决了传统内容选择任务中存在的碎片化问题,将多种提取式任务统一到一个框架下。它不仅提升了模型在跨任务上的泛化能力,还通过多任务混合训练显著提高了大型语言模型在新任务上的表现。这一突破为自然语言处理中的迁移学习研究提供了重要支持。
衍生相关工作
基于IGCS数据集,研究者开发了多个创新性工作,包括GenCS联合训练框架和IGCSBench评估基准。这些衍生工作进一步推动了指令引导内容选择技术的发展,其中部分成果已在ACL、EMNLP等顶级会议上发表,形成了完整的技术生态链。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作