allenai/qasc|自然语言处理数据集|教育数据集
收藏数据集概述
基本信息
- 名称: Question Answering via Sentence Composition (QASC)
- 语言: 英语 (en)
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 数据来源: 原始数据
- 任务类别: 问答 (question-answering), 多选题 (multiple-choice)
- 任务ID: 抽取式问答 (extractive-qa), 多选题问答 (multiple-choice-qa)
- 数据集大小: 1K<n<10K
数据集结构
-
特征:
id
: 字符串类型question
: 字符串类型choices
: 字典类型,包含text
(字符串类型) 和label
(字符串类型)answerKey
: 字符串类型fact1
: 字符串类型fact2
: 字符串类型combinedfact
: 字符串类型formatted_question
: 字符串类型
-
数据分割:
train
: 8134 条记录test
: 920 条记录validation
: 926 条记录
数据集创建
- 注释创建者: 众包
- 语言创建者: 发现
使用考虑
- 许可证: 数据集根据 CC BY 4.0 许可发布。
引用信息
@article{allenai:qasc, author = {Tushar Khot and Peter Clark and Michal Guerquin and Peter Jansen and Ashish Sabharwal}, title = {QASC: A Dataset for Question Answering via Sentence Composition}, journal = {arXiv:1910.11473v2}, year = {2020}, }
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录