bdsaglam/musique|多跳问题解答数据集|自然语言处理数据集
收藏数据集概述
配置名称:answerable
-
特征信息:
- id: 数据类型为字符串。
- paragraphs: 序列类型,包含以下子特征:
- idx: 数据类型为int32。
- title: 数据类型为字符串。
- paragraph_text: 数据类型为字符串。
- is_supporting: 数据类型为布尔值。
- question: 数据类型为字符串。
- question_decomposition: 序列类型,包含以下子特征:
- id: 数据类型为int32。
- question: 数据类型为字符串。
- answer: 数据类型为字符串。
- paragraph_support_idx: 数据类型为int32。
- answer: 数据类型为字符串。
- answerable: 数据类型为布尔值。
-
数据集分割:
- train: 大小为211123672字节,包含19938个样本。
- validation: 大小为26760847字节,包含2417个样本。
-
下载大小与数据集大小:
- 下载大小:299853055字节。
- 数据集大小:237884519字节。
配置名称:full
-
特征信息:
- id: 数据类型为字符串。
- paragraphs: 序列类型,包含以下子特征:
- idx: 数据类型为int32。
- title: 数据类型为字符串。
- paragraph_text: 数据类型为字符串。
- is_supporting: 数据类型为布尔值。
- question: 数据类型为字符串。
- question_decomposition: 序列类型,包含以下子特征:
- id: 数据类型为int32。
- question: 数据类型为字符串。
- answer: 数据类型为字符串。
- paragraph_support_idx: 数据类型为int32。
- answer: 数据类型为字符串。
- answerable: 数据类型为布尔值。
-
数据集分割:
- train: 大小为416868901字节,包含39876个样本。
- validation: 大小为52065789字节,包含4834个样本。
-
下载大小与数据集大小:
- 下载大小:591677838字节。
- 数据集大小:468934690字节。

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Photovoltaic power plant data
包括经纬度、电源板模型、NWP等信息。
github 收录
