five

OpenAssistant Conversation Dataset (OASST1)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/OpenAssistant_Conversation_Dataset_etc
下载链接
链接失效反馈
官方服务:
资源简介:
为了使大规模对齐的研究民主化,我们发布了OpenAssistant Conversations (OASST1),这是一种人类生成的,人类注释的助手风格的对话语料库,由35种不同语言的161,443条消息组成,并以461,292的质量评级进行注释,导致超过10,000个完全注释的对话树。该语料库是涉及13,500多名志愿者的全球众包工作的产物。

To democratize research on large-scale alignment, we release OpenAssistant Conversations (OASST1), a human-generated, human-annotated assistant-style conversational corpus consisting of 161,443 messages across 35 distinct languages, annotated with 461,292 quality ratings, resulting in over 10,000 fully annotated conversation trees. This corpus is the product of a global crowdsourcing effort involving more than 13,500 volunteers.
提供机构:
OpenDataLab
创建时间:
2023-04-26
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
OpenAssistant Conversations (OASST1) 是一个人类生成和注释的助手风格对话语料库,包含35种语言的161,443条消息和461,292个质量评级,覆盖超过10,000个对话树。该数据集由13,500多名志愿者通过全球众包工作创建,旨在推动大规模对齐研究的民主化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作