OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集
收藏数据集概述
数据集名称: OpenAssistant Conversations (OASST1)
数据集内容: 包含161,443条消息,涉及35种语言,共有461,292个质量评分,形成超过10,000个完全注释的对话树。
数据集结构: 数据集包含消息树,每个消息树以初始提示消息为根节点,可以有多条回复消息作为子节点,子节点也可以有多个回复。
消息属性:
- message_id: 字符串
- parent_id: 字符串
- user_id: 字符串
- created_date: 字符串
- text: 字符串
- role: 字符串("assistant" 或 "prompter")
- lang: 字符串
- review_count: int32
- review_result: bool
- deleted: bool
- rank: int32
- synthetic: bool
- model_name: 字符串
- detoxify: 结构体,包含多种毒性评估指标
- message_tree_id: 字符串
- tree_state: 字符串
- emojis: 序列,包含名称和计数
- labels: 序列,包含名称、值和计数
数据集分割:
- 训练集(train): 84,437条消息,占用100,367,999字节
- 验证集(validation): 4,401条消息,占用5,243,405字节
数据集大小:
- 下载大小: 41,596,430字节
- 数据集大小: 105,611,404字节
支持语言: 包括但不限于英语、西班牙语、俄语、德语、波兰语、泰语等35种语言。
数据集文件:
- 准备导出的树: 10,364棵树,包含88,838条消息
- 所有树: 66,497棵树,包含161,443条消息
- 补充导出:垃圾邮件与提示: 包含被删除或评价结果为负的消息
使用Huggingface数据集: 数据集支持通过Huggingface Datasets加载,适用于训练和验证集的加载。
数据集使用
数据集可通过Huggingface Datasets加载,支持训练和验证集的直接加载。数据集中的消息以深度优先顺序排列,可通过parent_id和message_id重建对话树结构。

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
SIMBAD Astronomical Database
SIMBAD astronomical database is the world reference database for the identification of astronomical objects and provides basic data, cross-identifications, bibliography and measurements for astronomical objects outside the solar system. Using VizieR, the catalogue service for the CDS reference collection of astronomical catalogues and tables published in academic journals and the Aladin interactive software sky atlas for access, visualization and analysis of astronomical images, surveys, catalogues, databases and related data. Simbad bibliographic survey began in 1950 for stars (at least bright stars) and in 1983 for all other objects (outside the solar system)
re3data.org 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
云浮市人口状况表信息
该数据包含了2022年至今云浮市人口状况表,指云浮市政务服务数据管理局对该信息的变动情况进行跟踪、采集、预测、分析、公布等活动。
开放广东 收录
