tuetschek/e2e_nlg|自然语言生成数据集|文本生成数据集
收藏数据集概述
数据集名称
- 名称: End-to-End NLG Challenge
- 别名: E2E
数据集基本信息
- 语言: 英语 (en)
- 许可证: cc-by-sa-4.0
- 多语言性: 单语
- 大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: text2text-generation
- 任务ID: 无
- 标签: meaning-representation-to-text
数据集结构
- 特征:
- meaning_representation: 字符串类型,包含餐厅信息的槽和值。
- human_reference: 字符串类型,描述餐厅信息的人类参考文本。
- 数据分割:
- 训练集: 42061个实例,9435824字节。
- 验证集: 4672个实例,1171723字节。
- 测试集: 4693个实例,1320205字节。
- 总下载大小: 11812316字节
- 数据集总大小: 11927752字节
数据集创建
- 注释创建者: 众包
- 语言创建者: 众包
- 初始数据收集和标准化: 使用CrowdFlower平台,遵循Novikova et al. (2016)进行质量控制。
- 注释过程: 使用图片作为刺激,以产生更自然、信息丰富和措辞良好的参考文本。
使用数据集的考虑
- 支持的任务: 从意义表达到文本的文本生成,用于餐厅领域的描述生成。
- 评估指标: BLEU, NIST, METEOR, ROUGE-L, CIDEr
- 基线模型: TGen模型,具体分数如下:
指标 分数 BLEU 0.6593 NIST 8.6094 METEOR 0.4483 ROUGE_L 0.6850 CIDEr 2.2338
附加信息
- 数据集维护者: @lhoestq
- 引用信息: 见README文件中的引用格式。
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
KAIST dataset
KAIST数据集,用于多光谱行人检测。
github 收录