allenai/common_gen|文本生成数据集|常识推理数据集

hugging_face2024-01-04 更新2024-03-04 收录

文本生成

常识推理

下载链接：

https://hf-mirror.com/datasets/allenai/common_gen

下载链接

链接失效反馈

资源简介：

CommonGen是一个专注于约束文本生成任务的数据集，旨在明确测试机器生成常识推理的能力。给定一组常见概念，任务是生成一个描述日常场景的连贯句子，使用这些概念。该数据集通过结合AMT众包和现有标题语料库构建，包含3万个概念集和5万个句子。

提供机构：

allenai

原始信息汇总

数据集概述

数据集名称

名称: CommonGen
别名: commongen

数据集属性

语言: 英语 (en)
许可证: MIT
多语言性: 单语
大小: 10K<n<100K
源数据集: 原始
任务类别: 文本到文本生成 (text2text-generation)
标签: 概念到文本 (concepts-to-text)

数据集结构

特征:
- concept_set_idx: int32类型
- concepts: 字符串序列
- target: 字符串类型
分割:
- 训练集: 67389个样本，6724166字节
- 验证集: 4018个样本，408740字节
- 测试集: 1497个样本，77518字节
- 下载大小: 3434865字节
- 数据集大小: 7210424字节

数据集创建

语言创建者: 发现和众包
注释创建者: 众包
数据集信息:
- 构建方式: 通过结合AMT众包和现有标题语料库构建，包含30k概念集和50k句子。

使用考虑

许可证信息: 数据集根据MIT许可证授权。
引用信息: bib @inproceedings{lin-etal-2020-commongen, title = "{C}ommon{G}en: A Constrained Text Generation Challenge for Generative Commonsense Reasoning", author = "Lin, Bill Yuchen and Zhou, Wangchunshu and Shen, Ming and Zhou, Pei and Bhagavatula, Chandra and Choi, Yejin and Ren, Xiang", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.findings-emnlp.165", doi = "10.18653/v1/2020.findings-emnlp.165", pages = "1823--1840" }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。