innodatalabs/rt-factcc

Name: innodatalabs/rt-factcc
Creator: innodatalabs
Published: 2024-04-17 11:06:24
License: 暂无描述

Hugging Face2024-04-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/innodatalabs/rt-factcc

下载链接

链接失效反馈

官方服务：

资源简介：

rt-factcc数据集是一个用于红队测试的数据集，基于FactCC数据集生成。该数据集主要用于验证新闻文章中的声明是否与文章内容一致。数据集包含多个配置版本，每个版本都有训练集和测试集，数据特征包括消息、预期结果和ID。数据集的结构展示了如何验证声明与新闻文章的一致性，并提供了Python代码示例来加载和使用数据集。

提供机构：

innodatalabs

原始信息汇总

rt-factcc 数据集概述

数据集描述

标签信息

语言: 英语
标签:
- red teaming
- not-for-all-audiences
标签:
- 领域: 通用
- 类型: 新闻
- 技能: 总结
- 安全性: 事实性

数据集版本信息

版本 0.0.1:
- 特征:
  - messages:
    - role: 字符串
    - content: 字符串
  - expected: 字符串
  - id: 字符串
- 分割:
  - test:
    - 字节数: 1783372
    - 样本数: 500
  - train:
    - 字节数: 9113599
    - 样本数: 2500
- 下载大小: 420513644 字节
- 数据集大小: 10896971 字节
版本 0.0.2:
- 特征:
  - messages:
    - role: 字符串
    - content: 字符串
  - expected: 字符串
  - id: 字符串
- 分割:
  - test:
    - 字节数: 3213372
    - 样本数: 500
  - train:
    - 字节数: 16263599
    - 样本数: 2500
- 下载大小: 420513644 字节
- 数据集大小: 19476971 字节
版本 0.0.3:
- 特征:
  - messages:
    - role: 字符串
    - content: 字符串
  - expected: 字符串
  - id: 字符串
- 分割:
  - test:
    - 字节数: 3205372
    - 样本数: 500
  - train:
    - 字节数: 16223599
    - 样本数: 2500
- 下载大小: 420513644 字节
- 数据集大小: 19428971 字节

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，事实核查任务对模型可靠性至关重要。rt-factcc数据集基于FactCC数据集构建，通过系统化转换流程，将原始文本摘要对转化为多轮对话格式。构建过程中，设计特定系统提示，引导模型扮演验证助手角色，依据新闻文本核查声明事实性。每个样本包含完整对话历史与标准答案，形成结构化测试单元，为评估大语言模型事实核查能力提供基准。

特点

该数据集聚焦新闻领域的事实性验证，具备鲜明的红队测试特性。其对话格式模拟真实交互场景，系统指令明确要求模型输出二分类结果。样本涵盖广泛新闻主题，声明经过精心设计，包含细微语义差异，能够有效检验模型对文本一致性的理解深度。数据规模适中，包含训练与测试划分，支持模型微调与评估双重需求。

使用方法

使用者可通过HuggingFace数据集库直接加载，指定版本号获取对应配置。加载后数据集呈现标准键值结构，包含消息序列、预期答案与唯一标识。典型应用流程包括遍历测试集样本，提取用户消息中的新闻与声明文本，送入模型获取预测结果，并与标准答案比对计算准确率。该数据集适用于评估大语言模型在受限输出条件下的推理能力与事实一致性。

背景与挑战

背景概述

在自然语言处理领域，文本摘要的事实一致性评估是确保信息可靠性的核心议题。rt-factcc数据集由Innodata Labs于2024年构建，其研究团队在David Nadeau的领导下，致力于解决大型语言模型在生成摘要时可能产生的事实性错误问题。该数据集基于Salesforce的FactCC数据集衍生而来，专注于通过红队测试方法，系统性地评估模型对新闻文本与对应声明之间一致性的判断能力。它的出现为模型事实性验证提供了标准化基准，显著推动了可信人工智能在文本生成领域的发展。

当前挑战

该数据集旨在应对文本摘要事实一致性验证的挑战，其核心难题在于模型需精准理解长篇新闻的复杂语义，并识别声明中细微的事实扭曲、省略或矛盾。构建过程中的挑战则体现在数据转换与任务适配上：原始FactCC数据集需被重构为适合红队测试的对话格式，这要求精心设计系统提示与用户查询，以确保评估任务既能反映真实应用场景，又能有效诱发模型的潜在事实性错误，同时保持数据标注的准确性与一致性。

常用场景

经典使用场景

在自然语言处理领域，事实核查任务对于确保文本生成模型的可靠性至关重要。rt-factcc数据集通过构建新闻文章与声明的配对，为模型提供了验证声明与原文一致性的标准测试平台。该数据集常用于评估和提升大型语言模型在摘要生成、问答系统等任务中的事实准确性，成为衡量模型是否产生幻觉或错误信息的关键基准。研究人员利用其结构化对话格式，系统性地检验模型在复杂语境下的推理与判断能力。

衍生相关工作

围绕rt-factcc数据集，学术界衍生出一系列聚焦模型安全性与事实性的经典研究。例如，相关工作深入探索了基于提示工程的红队测试方法，以系统性地暴露语言模型在事实核查任务中的脆弱性。部分研究将该数据集与其他事实性基准结合，构建了多维度评估体系。这些工作不仅扩展了数据集的应用边界，还催生了新型微调策略与对抗性训练技术，共同推动了可信人工智能评估范式的演进。

数据集最近研究