OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集
收藏数据集概述
数据集名称: OpenAssistant Conversations (OASST1)
数据集内容: 包含161,443条消息,涉及35种语言,共有461,292个质量评分,形成超过10,000个完全注释的对话树。
数据集结构: 数据集包含消息树,每个消息树以初始提示消息为根节点,可以有多条回复消息作为子节点,子节点也可以有多个回复。
消息属性:
- message_id: 字符串
- parent_id: 字符串
- user_id: 字符串
- created_date: 字符串
- text: 字符串
- role: 字符串("assistant" 或 "prompter")
- lang: 字符串
- review_count: int32
- review_result: bool
- deleted: bool
- rank: int32
- synthetic: bool
- model_name: 字符串
- detoxify: 结构体,包含多种毒性评估指标
- message_tree_id: 字符串
- tree_state: 字符串
- emojis: 序列,包含名称和计数
- labels: 序列,包含名称、值和计数
数据集分割:
- 训练集(train): 84,437条消息,占用100,367,999字节
- 验证集(validation): 4,401条消息,占用5,243,405字节
数据集大小:
- 下载大小: 41,596,430字节
- 数据集大小: 105,611,404字节
支持语言: 包括但不限于英语、西班牙语、俄语、德语、波兰语、泰语等35种语言。
数据集文件:
- 准备导出的树: 10,364棵树,包含88,838条消息
- 所有树: 66,497棵树,包含161,443条消息
- 补充导出:垃圾邮件与提示: 包含被删除或评价结果为负的消息
使用Huggingface数据集: 数据集支持通过Huggingface Datasets加载,适用于训练和验证集的加载。
数据集使用
数据集可通过Huggingface Datasets加载,支持训练和验证集的直接加载。数据集中的消息以深度优先顺序排列,可通过parent_id
和message_id
重建对话树结构。

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
数据堂—103,282张驾驶员行为标注数据
103,282张驾驶员行为标注数据涵盖多年龄段、多时间段、多种行为(危险驾驶行为、疲劳驾驶行为、视线偏移行为)。在标注方面,对人脸72关键点(包括瞳孔)、人脸属性、手势检测框、安全带检测框、瞳孔关键点、行为类别进行标注。本套驾驶员行为标注数据可用于驾驶员行为分析等任务
魔搭社区 收录