five

BelleGroup/train_3.5M_CN|自然语言处理数据集|文本生成数据集

收藏
hugging_face2023-08-16 更新2024-03-04 收录
自然语言处理
文本生成
下载链接:
https://hf-mirror.com/datasets/BelleGroup/train_3.5M_CN
下载链接
链接失效反馈
资源简介:
该数据集包含约350万条由BELLE项目生成的中文指令数据,主要用于文本生成任务。数据以对话形式呈现,包括多轮和单轮对话,涵盖了13个指令类别。样例数据展示了用户和助手之间的交互,涉及电影题材介绍、菜谱编写、拍照地点推荐等内容。数据集的使用仅限于研究目的,不得用于商业或其他有害用途。

该数据集包含约350万条由BELLE项目生成的中文指令数据,主要用于文本生成任务。数据以对话形式呈现,包括多轮和单轮对话,涵盖了13个指令类别。样例数据展示了用户和助手之间的交互,涉及电影题材介绍、菜谱编写、拍照地点推荐等内容。数据集的使用仅限于研究目的,不得用于商业或其他有害用途。
提供机构:
BelleGroup
原始信息汇总

数据集概述

基本信息

  • 许可证: GPL-3.0
  • 任务类别: 文本到文本生成
  • 语言: 中文
  • 数据集大小: 1M<n<10M

内容

  • 包含约350万条由BELLE项目生成的中文指令数据。

样例结构

  • id: 数据ID
  • conversations: 数据内容,以对话形式给出,包括多轮和单轮对话的数据。

使用限制

  • 仅允许将此数据集及使用此数据集生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录

frames-benchmark

FRAMES数据集是一个综合评估数据集,旨在测试检索增强生成(RAG)系统在事实性、检索准确性和推理方面的能力。该数据集包含824个具有挑战性的多跳问题,这些问题需要从2到15篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。FRAMES数据集的主要特点包括测试端到端的RAG能力、需要整合来自多个来源的信息、包含复杂的推理和时间性消歧,并设计为对最先进的语言模型具有挑战性。该数据集可用于评估RAG系统性能、基准测试语言模型的事实性和推理能力,以及开发和测试多跳检索策略。

huggingface 收录