five

lytang/C2D-and-D2C-MiniCheck

收藏
Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/lytang/C2D-and-D2C-MiniCheck
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含C2D和D2C两种合成数据,用于训练MiniCheck模型。C2D从人工编写的声明开始,生成需要模型检查多个事实的合成文档。D2C从人工编写的文档开始,生成声明并将其与文档的部分配对,要求模型进行多句子、多事实的推理来检查声明。数据集的特征包括声明(claim)、文档(doc)和标签(label),分为c2d和d2c两个分割,分别包含7076和7319个示例。数据集的语言为英语,大小类别为10K<n<100K,许可证为MIT。

该数据集包含C2D和D2C两种合成数据,用于训练MiniCheck模型。C2D从人工编写的声明开始,生成需要模型检查多个事实的合成文档。D2C从人工编写的文档开始,生成声明并将其与文档的部分配对,要求模型进行多句子、多事实的推理来检查声明。数据集的特征包括声明(claim)、文档(doc)和标签(label),分为c2d和d2c两个分割,分别包含7076和7319个示例。数据集的语言为英语,大小类别为10K<n<100K,许可证为MIT。
提供机构:
lytang
原始信息汇总

数据集概述

数据集配置

  • 配置名称: default
  • 数据文件:
    • c2d: 路径为 data/c2d-*
    • d2c: 路径为 data/d2c-*

数据集信息

  • 特征:
    • claim: 数据类型为 string
    • doc: 数据类型为 string
    • label: 数据类型为 int64
  • 分割:
    • c2d:
      • 字节数: 8932849
      • 样本数: 7076
    • d2c:
      • 字节数: 6868458
      • 样本数: 7319
  • 下载大小: 2288457 字节
  • 数据集大小: 15801307 字节

其他信息

  • 语言: 英语 (en)
  • 大小类别: 10K < n < 100K
  • 许可证: MIT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作