five

GEM/common_gen

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/common_gen
下载链接
链接失效反馈
官方服务:
资源简介:
CommonGen是一个英文文本生成任务,旨在显式测试机器在生成常识推理方面的能力。给定一组常见概念,任务是使用这些概念生成一个描述日常场景的连贯句子。CommonGen具有挑战性,因为它需要1)使用背景常识知识进行关系推理,2)对未见过的概念组合进行组合泛化。该数据集通过众包和现有字幕语料库构建,包含30k个概念集和50k个句子。CommonGen测试集是私有的,需要提交到外部排行榜。
提供机构:
GEM
原始信息汇总

数据集概述

数据集基本信息

  • 名称: CommonGen
  • 语言: 英语
  • 许可证: MIT License
  • 多语言性: 否
  • 数据来源: 原始数据
  • 任务类别: 推理
  • 任务ID: 无
  • 美观名称: common_gen
  • 标签: 推理

数据集描述

  • 概述: CommonGen 是一个英语文本生成任务,旨在测试机器的生成常识推理能力。任务要求根据一组常见概念生成描述日常场景的连贯句子。
  • 构建方式: 通过结合来自AMT的众包和现有标题语料库构建,包含30k概念集和50k句子。
  • 测试集: 私有,需提交至外部排行榜。

数据集结构

  • 数据字段:

    • concepts: 一个包含3至5个字符串的列表,表示系统应写作的概念。
    • target: 一个包含所有上述概念的句子字符串。
  • 示例实例: json [ { "concepts": [ski, mountain, skier], "target": Skier skis down the mountain, }, { "concepts": [ski, mountain, skier], "target": Three skiers are skiing on a snowy mountain., }, ]

  • 数据分割:

    • 训练集: 32,651概念集,67,389句子
    • 开发集: 993概念集,4,018句子
    • 测试集: 1,497概念集,6,042句子

数据集使用

  • 目的: 用于测试机器的生成常识推理能力。
  • 主要任务: 推理
  • 通信目标: 生成包含所有源概念的连贯句子,描述可能被捕捉在图片或视频中的可能情况。

数据集创建与维护

  • 创建者: Bill Yuchen Lin (USC), Wangchunshu Zhou (USC), Ming Shen (USC), Pei Zhou (USC), Chandra Bhagavatula (AllenAI), Yejin Choi (AllenAI + UW), Xiang Ren (USC)
  • 资金支持: 部分由美国国家情报总监办公室(ODNI)、情报高级研究项目活动(IARPA)、DARPA MCS项目和NSF SMA 18-29268支持。
  • 维护计划: 无

数据集评估

  • 评估方法: 使用SPICE、BLEU-4、CIDEr等指标进行自动评估。
  • 先前结果: 可通过排行榜查看。

数据集获取

  • 下载方式: 通过datasets.load_dataset(GEM/common_gen)加载数据集。
  • 数据加载器: 可在Hugging Face找到。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作