Jackal Dataset|无人地面车辆数据集|机器人导航数据集
收藏中文高质量大模型多轮对话SFT数据集
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
OpenDataLab 收录
Ubuntu Dialogue Corpus
Ubuntu Dialogue Corpus是由麦吉尔大学计算机科学学院创建的大型数据集,包含近100万条多轮对话,总计超过700万条发言和1亿个单词。该数据集特别适用于研究基于神经语言模型的对话管理系统,能够利用大量未标记数据。数据集不仅具有对话状态跟踪挑战数据集的多轮对话特性,还具有Twitter等微博服务交互的无结构特性。创建过程中,从Ubuntu聊天日志中提取了近百万条两人对话,平均每条对话包含8轮,最少3轮。所有对话均为文本形式。该数据集在技术支持领域具有特定应用,可用作开发AI代理的目标应用案例研究,与缺乏明确目标的聊天机器人系统形成对比。
arXiv 收录
中国区域每月地下水水位栅格数据集(2005-2022)
数据集“GWs_cn_1km”提供了2005年至2022年中国区域的地下水位月度栅格数据,分辨率为1km。数据来源于《中国地质环境监测地下水位年鉴》,涵盖了每日地下水位信息,经过数据清洗、整理和反距离加权(IDW)插值处理,确保了数据的准确性和一致性,能够反映中国区域内地下水位的空间分布和时序变化。数据集的质量经过严格验证,虽然插值方法可能导致局部精度有所下降,但整体数据具有较高的代表性。此数据集在地下水资源监测、生态系统研究和决策支持方面具有广泛应用前景。它为地下水变化趋势分析和生态影响评估提供了重要依据,未来可用于高分辨率建模和综合环境研究,以增强地下水管理和保护的科学依据。
国家青藏高原科学数据中心 收录
xBD
xBD 数据集是迄今为止第一个建筑损坏评估数据集,是用于注释的高分辨率卫星图像的最大和最高质量的公共数据集之一。 该数据集包含 22068 张图像,所有 1024 x 1024 高分辨率卫星遥感图像,标记有 19 个不同的事件,包括地震、洪水、野火、火山爆发和车祸。这些图像包括灾前和灾后图像,可用于构建定位和损害评估任务。
OpenDataLab 收录
Replication Data for: "Markov-Switching Models with Evolving Regime-Specific Parameters: Are Postwar Booms or Recessions All Alike?"
Eo, Yunjong, and Kim, Chang-Jin, (2016) "Markov-Switching Models with Evolving Regime-Specific Parameters: Are Postwar Booms or Recessions All Alike?" Review of Economics and Statistics 98:5, 940-949.
DataCite Commons 收录