five

fzmnm/TinyBooks-QA-Chinese|儿童教育数据集|AI生成内容数据集

收藏
hugging_face2024-06-19 更新2024-06-15 收录
儿童教育
AI生成内容
下载链接:
https://hf-mirror.com/datasets/fzmnm/TinyBooks-QA-Chinese
下载链接
链接失效反馈
资源简介:
TinyBooks-QA-Chinese数据集受到TinyStories论文的启发,旨在为幼儿园和小学水平的孩子提供适合的AI生成百科全书。该数据集将经典文学作品转换为问答形式的课程,使用简单直接的语言。每个条目包含AI转换的故事、AI提取的关键词、AI生成的问答对以及反事实思维练习。设计动机包括简化语言以减少复杂长文本的噪音,并提供比TinyStories更高质量和多样性的替代品。警告部分提到关键词提取的保真度低,不适合用于训练摘要模型,且内容需要人工事实检查和安全检查。数据分布不平衡,可能需要手动减少某些书籍的样本。故事长度约为700字符,但需要2k+的内容窗口来查看整个课程。

Inspired by the TinyStories paper, the TinyBooks-QA-Chinese dataset aims to provide an AI-generated encyclopedia suitable for kindergarten and grade school levels. This dataset converts classical literature into a question-answer style curriculum using simple and straightforward language. Each entry includes an AI-converted story, AI-extracted keywords, AI-generated question-answer pairs, and counterfactual thinking exercises. The design motivation includes simplifying language to reduce noise from complex long texts and providing a higher quality and more diverse alternative to TinyStories. Warnings mention the low fidelity of keyword extraction, unsuitability for training summarization models, and the need for human fact-checking and safety checks. The data distribution is unbalanced, and manual reduction of samples from certain books may be necessary. The story length is around 700 characters, but a 2k+ content window is needed to view the entire curriculum.
提供机构:
fzmnm
原始信息汇总

TinyBooks-QA-Chinese

数据集概述

TinyBooks-QA-Chinese 是一个由 AI 生成的数据集,旨在将经典文学作品转换为适合幼儿园和小学水平的问答式课程。数据集使用简单直白的语言,适合年轻儿童阅读。

数据集内容

每个数据集条目包含以下内容:

  1. AI 转换的经典文学故事
  2. AI 提取的故事关键词
  3. AI 生成的问答对,用于简单的阅读理解任务
  4. AI 生成的反事实思维练习,包括一个“如果”问题和一个故事的替代结局

设计动机

  • 将阅读理解和下一个词预测所需的所有关键信息打包到一个小的上下文窗口中,使用简化的语言,减少复杂长篇语料中缺乏上下文的噪音。
  • 提供一个高质量和更多样化的替代方案,同时保持语言的简洁性。

警告

  • 从故事中提取的关键词保真度较低,仅用于生成故事提示,不应用于训练摘要模型。
  • 该内容不适合儿童使用,除非经过人工事实核查和安全检查。由于历史文学的性质,可能包含不适合工作场所的内容和偏见。
  • 数据分布不平衡,可能需要手动减少“世说新语”(Shishuo Xinyu)的样本。
  • 故事长度约为700字符,但需要2k+的内容窗口才能看到包括故事、问答和反事实练习在内的完整课程。

生成方法

生成方法包括以下步骤:

  1. 将文本转述成适合幼儿园小朋友阅读的700字以内的中文小故事。
  2. 从故事中提取五个关键词。
  3. 根据故事生成5个问答练习。
  4. 设计一个反事实思维的小练习,包括一个“如果”问题和一个新故事。

示例

示例展示了一个关于孙悟空的故事,包括故事内容、问答练习和反事实思维练习。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于人工智能技术,将经典文学作品转化为适合幼儿阅读的简易故事,并从中提取关键词、生成问答对以及反事实思维练习。具体而言,通过预设的四个不同的人工智能生成提示(prompt),分别实现故事的转述、关键词提取、问答对生成和反事实思维练习的自动构建,从而形成了一个包含故事文本、关键词、问答对及反事实思维练习的复合数据结构。
特点
TinyBooks-QA-Chinese数据集的特点在于其内容专为孩子设计,语言简练,易于理解。它不仅包含了经过简化的经典文学故事,还提供了与故事相关的问题和答案,以及反事实思维练习,有助于培养孩子的阅读理解能力和创造性思维。数据集虽小,但信息量大,旨在通过有限的故事窗口,传达阅读理解和下一词预测所需的关键信息,减少因缺乏上下文而产生的理解噪音。
使用方法
使用该数据集时,用户可以直接利用其中的故事文本进行阅读理解训练,或结合问答对进行交互式学习。此外,反事实思维练习可用于促进孩子的想象力和批判性思维。由于数据集规模较小,适合用于模型预训练或作为下游任务的辅助数据集。需要注意的是,使用前应对数据集中的故事进行适当筛选,确保内容适合目标年龄段,并经过人工审核以确保安全性和适宜性。
背景与挑战
背景概述
TinyBooks-QA-Chinese数据集,受TinyStories启发,旨在为幼儿园及小学生提供一种将经典文学作品转化为问答式课程的AI生成百科全书。该数据集的创建,是为了在一个较小的上下文窗口中,以简化的语言,封装阅读理解和下一词预测所需的所有关键信息,减少因缺乏上下文而无法理解复杂长文本的噪声。其设计动机还在于提供一个比TinyStories数据集质量更高、多样性更强的替代品,同时保持语言的简单性。该数据集的创建时间为近期,由数据集贡献者fzmnm发起,并在HuggingFace平台上共享,旨在促进中文自然语言处理领域的研究与应用。
当前挑战
该数据集在构建过程中遇到的挑战包括:关键词提取的准确性问题,由于AI可能会被误导,导致生成的文本存在安全问题,需要对儿童进行人工事实检查和安全检查;数据分布不均匀,需要手动调整样本;此外,故事长度约为700字,但为了查看完整的故事、问答和反事实练习,需要一个超过2000字的内容窗口。这些挑战表明,在构建面向儿童的教育数据集时,需要特别注意内容的准确性和安全性。
常用场景
经典使用场景
在当前的人工智能研究领域,TinyBooks-QA-Chinese数据集以其独特的古典文学转述和简化的语言风格,成为训练小型语言模型进行阅读理解和推理任务的重要资源。该数据集将经典文学作品转化为适合儿童阅读的故事,并辅以关键词提取、问题回答对以及反事实思维练习,为AI模型提供了一种在紧凑上下文中进行有效学习的可能。
实际应用
在实际应用中,TinyBooks-QA-Chinese数据集可用于开发面向儿童的教育应用,如互动故事书或阅读理解练习软件,它有助于提升儿童的语言理解和文学素养。同时,该数据集也为开发针对中文语言处理的AI模型提供了宝贵的数据资源。
衍生相关工作
基于TinyBooks-QA-Chinese数据集的研究已经衍生出一系列相关工作,包括对古典文学进行AI辅助教学的研究,以及探索小语境下语言模型性能的边界。这些研究不仅推动了AI技术在教育领域的应用,也为理解人工智能在处理复杂文化内容时的能力和局限提供了实证基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国高考录取分数线数据

  高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。  CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。

CnOpenData 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录