fzmnm/TinyEncyclopedias-Chinese|儿童教育数据集|文本生成数据集

hugging_face2024-06-19 更新2024-06-15 收录

儿童教育

文本生成

下载链接：

https://hf-mirror.com/datasets/fzmnm/TinyEncyclopedias-Chinese

下载链接

链接失效反馈

资源简介：

TinyEncyclopediasChinese数据集是一个为幼儿园和小学阶段儿童设计的AI生成百科全书。数据集包含AI生成的百科式短文和用户与AI助手之间的多轮对话，总计654万中文字符。生成过程中使用了特定的提示模板，确保内容适合儿童阅读，并涵盖了STEM、人文和日常常识等多个领域。特别增加了道德教育文章的比例，如如何交朋友、如何应对悲伤等。数据集专注于中文，强调中国文化和日常生活，未进行安全性和事实核查，可能存在不适合儿童的内容或事实错误。

TinyEncyclopediasChinese is an AI-generated encyclopedia-style dataset designed for kindergarten and elementary school children, providing short articles and multi-round QA sessions. The dataset contains 6.54M Chinese characters, covering STEM, humanities, and everyday common sense concepts, with a special emphasis on moral education articles. The dataset focuses on Chinese to avoid language complexities, emphasizing Chinese culture and daily life. The dataset has not yet undergone safety or factual checks and may contain content inappropriate for children or factual inaccuracies.

提供机构：

fzmnm

原始信息汇总

TinyEncyclopediasChinese

数据集概述

许可证：cc
任务类别：text-generation
语言：zh
数据量：10K<n<100K

数据集内容

总字符数：6.54M
内容类型：
- AI合成的百科式短文
- AI合成的用户与AI代理之间的多轮QA对话

生成方式

百科短文生成提示： python

分类：{path} 以“{keyword}”为题，编写一段适合小学生/幼儿园小朋友阅读的科普小短文。
QA对话生成提示： python

分类：{path} 以“{keyword}”为题，编写一段适合小学生和人工智能助手之间的多轮对话。一共10轮。要求语言生动活泼。格式：问：答：

数据集特点

分类和关键词：结合AI和人工输入，涵盖STEM、人文和日常常识概念。
道德教育文章：增加道德教育文章比例，如交友、应对悲伤、帮助父母做家务等。
语言专注：专注于中文，强调中国文化和日常生活。
质量保证：直接用中文编写，确保内容准确性和相关性。

注意事项

安全性和事实性：数据集尚未进行安全或事实性检查，可能包含不适合儿童的内容或事实错误。

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集，旨在微调大型语言模型。该数据集包含三个部分：指令（问题）、摘要（从PubMed检索的相关摘要，包含PubMed ID、摘要标题和内容）和答案（预期答案，包含PubMed ID形式的参考）。数据集通过半自动方式创建，利用了PubMedQA数据集中的问题。

huggingface 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

MUStARD++

MUStARD++是一个多模态讽刺检测数据集，由萨里大学创建，旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本，来源于多个流行电视节目，通过手动标注确保高质量的讽刺标签。创建过程中，研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测，帮助机器理解并识别讽刺语境，解决讽刺识别中的多模态挑战。

arXiv 收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录