bdsaglam/musique|多跳问题解答数据集|自然语言处理数据集
收藏数据集概述
配置名称:answerable
-
特征信息:
- id: 数据类型为字符串。
- paragraphs: 序列类型,包含以下子特征:
- idx: 数据类型为int32。
- title: 数据类型为字符串。
- paragraph_text: 数据类型为字符串。
- is_supporting: 数据类型为布尔值。
- question: 数据类型为字符串。
- question_decomposition: 序列类型,包含以下子特征:
- id: 数据类型为int32。
- question: 数据类型为字符串。
- answer: 数据类型为字符串。
- paragraph_support_idx: 数据类型为int32。
- answer: 数据类型为字符串。
- answerable: 数据类型为布尔值。
-
数据集分割:
- train: 大小为211123672字节,包含19938个样本。
- validation: 大小为26760847字节,包含2417个样本。
-
下载大小与数据集大小:
- 下载大小:299853055字节。
- 数据集大小:237884519字节。
配置名称:full
-
特征信息:
- id: 数据类型为字符串。
- paragraphs: 序列类型,包含以下子特征:
- idx: 数据类型为int32。
- title: 数据类型为字符串。
- paragraph_text: 数据类型为字符串。
- is_supporting: 数据类型为布尔值。
- question: 数据类型为字符串。
- question_decomposition: 序列类型,包含以下子特征:
- id: 数据类型为int32。
- question: 数据类型为字符串。
- answer: 数据类型为字符串。
- paragraph_support_idx: 数据类型为int32。
- answer: 数据类型为字符串。
- answerable: 数据类型为布尔值。
-
数据集分割:
- train: 大小为416868901字节,包含39876个样本。
- validation: 大小为52065789字节,包含4834个样本。
-
下载大小与数据集大小:
- 下载大小:591677838字节。
- 数据集大小:468934690字节。

网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录