oasst|对话模型数据集|多轮对话数据集
收藏Conversational Dataset
数据集概述
该数据集由H2O.ai设计,用于微调对话模型,特别是在多轮问答场景中。它包含结构化的对话,每个对话通过唯一标识符链接,以在多轮中保持上下文。
数据集详情
数据集描述
该数据集包括多轮对话,结构化方式为每个instruction
有一个关联的output
,并带有id
和parent_id
字段以跟踪层次对话流。该数据集使模型能够理解和生成上下文适当的响应,适用于聊天机器人、任务型对话系统和其他对话AI应用。
- 由: H2O.ai 策划
- 语言(NLP): 英语
- 许可证: Apache 2.0
数据集来源
- 仓库: [Link to dataset repository on Hugging Face]
- 论文 [可选]: [Link to relevant papers, e.g., Hugging Face papers or H2O.ai papers]
- 演示: [Add link if there’s an available demo]
用途
直接使用
该数据集旨在用于微调以下模型:
- 多轮对话任务
- 指令跟随对话
- 聊天机器人或虚拟助手应用
超出范围的使用
该数据集在不相关的任务中(如分类或摘要)可能表现不佳,除非进行额外的预处理。
数据集结构
- Instruction: 提供给模型的输入或提示。
- Output: 模型预期的响应。
- Id: 每个交互对的唯一标识符。
- Parent_id: 将指令与其先前的上下文链接,使模型能够保持对话流程。
数据集创建
策划理由
H2O.ai创建此数据集以增强对话模型管理多轮对话的能力,并具有上下文意识。这是公司通过强大、易于使用的工具实现AI民主化承诺的一部分。
源数据
数据收集和处理
数据从各种对话AI场景中收集,经过策划以启用上下文跟踪。数据集经过清理和结构化,以确保相关性,重点关注指令和对话的准确性。
源数据生产者是谁?
该数据集由H2O.ai策划,这是一家在AI云领域领先的公司,以其为企业应用实现AI民主化的工作而闻名。
注释
该数据集不包括任何额外的手动注释,除了结构化的输入-输出对。
偏见、风险和局限性
该数据集可能携带从其收集来源固有的偏见。鼓励用户评估和调整其模型以减轻任何偏见,特别是在敏感或企业应用中。
建议
建议用户在涉及决策或客户接触应用的上下文中,彻底测试基于此数据集微调的模型,以确保公平性和偏见。
引用
如果您使用此数据集,请引用:
bibtex @dataset{h2oai_conversational_dataset, author = {H2O.ai}, title = {Multi-turn Conversational Dataset for Chatbot Fine-tuning}, year = {2024}, url = {Link to your dataset}, }

WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Food-101
Food-101 数据集由 101 个食品类别组成,每个类别有 750 个训练图像和 250 个测试图像,总共有 101k 个图像。测试图像的标签已被手动清理,而训练集包含一些噪声。 来源:结合 Weakly 和 Webly 监督学习对食物图像进行分类
OpenDataLab 收录
广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录