GEM/common_gen
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/common_gen
下载链接
链接失效反馈官方服务:
资源简介:
CommonGen是一个英文文本生成任务,旨在显式测试机器在生成常识推理方面的能力。给定一组常见概念,任务是使用这些概念生成一个描述日常场景的连贯句子。CommonGen具有挑战性,因为它需要1)使用背景常识知识进行关系推理,2)对未见过的概念组合进行组合泛化。该数据集通过众包和现有字幕语料库构建,包含30k个概念集和50k个句子。CommonGen测试集是私有的,需要提交到外部排行榜。
提供机构:
GEM
原始信息汇总
数据集概述
数据集基本信息
- 名称: CommonGen
- 语言: 英语
- 许可证: MIT License
- 多语言性: 否
- 数据来源: 原始数据
- 任务类别: 推理
- 任务ID: 无
- 美观名称: common_gen
- 标签: 推理
数据集描述
- 概述: CommonGen 是一个英语文本生成任务,旨在测试机器的生成常识推理能力。任务要求根据一组常见概念生成描述日常场景的连贯句子。
- 构建方式: 通过结合来自AMT的众包和现有标题语料库构建,包含30k概念集和50k句子。
- 测试集: 私有,需提交至外部排行榜。
数据集结构
-
数据字段:
concepts: 一个包含3至5个字符串的列表,表示系统应写作的概念。target: 一个包含所有上述概念的句子字符串。
-
示例实例: json [ { "concepts": [ski, mountain, skier], "target": Skier skis down the mountain, }, { "concepts": [ski, mountain, skier], "target": Three skiers are skiing on a snowy mountain., }, ]
-
数据分割:
- 训练集: 32,651概念集,67,389句子
- 开发集: 993概念集,4,018句子
- 测试集: 1,497概念集,6,042句子
数据集使用
- 目的: 用于测试机器的生成常识推理能力。
- 主要任务: 推理
- 通信目标: 生成包含所有源概念的连贯句子,描述可能被捕捉在图片或视频中的可能情况。
数据集创建与维护
- 创建者: Bill Yuchen Lin (USC), Wangchunshu Zhou (USC), Ming Shen (USC), Pei Zhou (USC), Chandra Bhagavatula (AllenAI), Yejin Choi (AllenAI + UW), Xiang Ren (USC)
- 资金支持: 部分由美国国家情报总监办公室(ODNI)、情报高级研究项目活动(IARPA)、DARPA MCS项目和NSF SMA 18-29268支持。
- 维护计划: 无
数据集评估
- 评估方法: 使用SPICE、BLEU-4、CIDEr等指标进行自动评估。
- 先前结果: 可通过排行榜查看。
数据集获取
- 下载方式: 通过
datasets.load_dataset(GEM/common_gen)加载数据集。 - 数据加载器: 可在Hugging Face找到。



