OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集
收藏数据集概述
数据集名称: OpenAssistant Conversations (OASST1)
数据集内容: 包含161,443条消息,涉及35种语言,共有461,292个质量评分,形成超过10,000个完全注释的对话树。
数据集结构: 数据集包含消息树,每个消息树以初始提示消息为根节点,可以有多条回复消息作为子节点,子节点也可以有多个回复。
消息属性:
- message_id: 字符串
- parent_id: 字符串
- user_id: 字符串
- created_date: 字符串
- text: 字符串
- role: 字符串("assistant" 或 "prompter")
- lang: 字符串
- review_count: int32
- review_result: bool
- deleted: bool
- rank: int32
- synthetic: bool
- model_name: 字符串
- detoxify: 结构体,包含多种毒性评估指标
- message_tree_id: 字符串
- tree_state: 字符串
- emojis: 序列,包含名称和计数
- labels: 序列,包含名称、值和计数
数据集分割:
- 训练集(train): 84,437条消息,占用100,367,999字节
- 验证集(validation): 4,401条消息,占用5,243,405字节
数据集大小:
- 下载大小: 41,596,430字节
- 数据集大小: 105,611,404字节
支持语言: 包括但不限于英语、西班牙语、俄语、德语、波兰语、泰语等35种语言。
数据集文件:
- 准备导出的树: 10,364棵树,包含88,838条消息
- 所有树: 66,497棵树,包含161,443条消息
- 补充导出:垃圾邮件与提示: 包含被删除或评价结果为负的消息
使用Huggingface数据集: 数据集支持通过Huggingface Datasets加载,适用于训练和验证集的加载。
数据集使用
数据集可通过Huggingface Datasets加载,支持训练和验证集的直接加载。数据集中的消息以深度优先顺序排列,可通过parent_id
和message_id
重建对话树结构。

Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录