oasst|对话模型数据集|多轮对话数据集
收藏Conversational Dataset
数据集概述
该数据集由H2O.ai设计,用于微调对话模型,特别是在多轮问答场景中。它包含结构化的对话,每个对话通过唯一标识符链接,以在多轮中保持上下文。
数据集详情
数据集描述
该数据集包括多轮对话,结构化方式为每个instruction
有一个关联的output
,并带有id
和parent_id
字段以跟踪层次对话流。该数据集使模型能够理解和生成上下文适当的响应,适用于聊天机器人、任务型对话系统和其他对话AI应用。
- 由: H2O.ai 策划
- 语言(NLP): 英语
- 许可证: Apache 2.0
数据集来源
- 仓库: [Link to dataset repository on Hugging Face]
- 论文 [可选]: [Link to relevant papers, e.g., Hugging Face papers or H2O.ai papers]
- 演示: [Add link if there’s an available demo]
用途
直接使用
该数据集旨在用于微调以下模型:
- 多轮对话任务
- 指令跟随对话
- 聊天机器人或虚拟助手应用
超出范围的使用
该数据集在不相关的任务中(如分类或摘要)可能表现不佳,除非进行额外的预处理。
数据集结构
- Instruction: 提供给模型的输入或提示。
- Output: 模型预期的响应。
- Id: 每个交互对的唯一标识符。
- Parent_id: 将指令与其先前的上下文链接,使模型能够保持对话流程。
数据集创建
策划理由
H2O.ai创建此数据集以增强对话模型管理多轮对话的能力,并具有上下文意识。这是公司通过强大、易于使用的工具实现AI民主化承诺的一部分。
源数据
数据收集和处理
数据从各种对话AI场景中收集,经过策划以启用上下文跟踪。数据集经过清理和结构化,以确保相关性,重点关注指令和对话的准确性。
源数据生产者是谁?
该数据集由H2O.ai策划,这是一家在AI云领域领先的公司,以其为企业应用实现AI民主化的工作而闻名。
注释
该数据集不包括任何额外的手动注释,除了结构化的输入-输出对。
偏见、风险和局限性
该数据集可能携带从其收集来源固有的偏见。鼓励用户评估和调整其模型以减轻任何偏见,特别是在敏感或企业应用中。
建议
建议用户在涉及决策或客户接触应用的上下文中,彻底测试基于此数据集微调的模型,以确保公平性和偏见。
引用
如果您使用此数据集,请引用:
bibtex @dataset{h2oai_conversational_dataset, author = {H2O.ai}, title = {Multi-turn Conversational Dataset for Chatbot Fine-tuning}, year = {2024}, url = {Link to your dataset}, }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录
猫狗分类
## 数据集描述 ### 数据集简介 本数据集是简单的猫狗二分类数据集,共2个类别,其中训练集包含275张带注释的图像,验证集包含70张带注释的图像。整个数据集共10.3MB,可用于快速模型验证、性能评估、小数据集训练等。 ### 数据集支持的任务 可用于快速模型验证、性能评估、小数据集训练等。 ## 数据集的格式和结构 ### 数据格式 数据集包括训练集train和验证集val,train和val文件夹之下按文件夹进行分类,共有2个子文件夹,同类别标签的图片在同一个文件夹下,图片格式为JPG。同时包含与标注文件中label id相对应的类名文件classname.txt。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode ms_train_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='train') # 加载训练集 print(next(iter(ms_train_dataset))) ms_val_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='validation') # 加载验证集 print(next(iter(ms_val_dataset))) ``` ### 数据分片 本数据集包含train和val数据集。 | 子数据集 | train | val | test | |---------|-------------:|-----------:|---------:| | default | 训练集 | 验证集 | / | ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/tany0699/cats_and_dogs.git ```
魔搭社区 收录