BelleGroup/generated_chat_0.4M|自然语言处理数据集|角色生成数据集
收藏数据集概述:Generated_Chat_0.4M
基本信息
- 许可证: GPL-3.0
- 任务类别: 文本到文本生成
- 语言: 中文
- 数据集大小: 100K<n<1M
内容描述
- 数据集内容: 包含约40万条个性化角色对话数据,由BELLE项目生成,每条数据包含角色介绍。
- 生成方式: 数据集由ChatGPT生成,未经严格校验,可能包含错误。
数据集结构
- 字段说明:
instruction
: 指令input
: 输入(本数据集均为空)output
: 输出
样例
json { "instruction": "于以下角色信息完成一段对话 Alice是一个年轻的律师,她正在为一个涉及濒危物种保护的案件做准备。Bob是一位当地的居民,他所在的社区经常受到该濒危物种的干扰。 ", "input": "", "output": " Alice: 你好Bob,我是濒危物种保护案的律师,很高兴见到你。我们前几天发给你的文件你看到了吗? Bob: 看到了,你们说要禁止我们在该物种的常住地采集蘑菇,这很不公平。 Alice: 保护濒危物种对整个生态系统都很重要,如果我们的举动损害了这个物种的生存,那么整个生态系统都将遭受损失。 Bob: 我理解您的立场,但是我们一直以来都依靠这个物种来维持我们的经济生活,现在我们要怎么办? Alice: 我理解这对当地社区的影响,但是现在我们必须找到一种既能保护这个物种,也同时使您们的经济生活不受影响的解决方案。你有任何想法吗?我们可以一起来想办法。 " }
使用限制
- 使用目的: 仅限于研究目的,不得用于商业或其他可能对社会造成危害的用途。
- 数据准确性: 由于数据未经严格验证,使用时需注意甄别其准确性。
- 责任声明: 本数据集不代表任何立场或主张,开发者不对使用本数据集可能带来的损害或纠纷承担责任。

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录