fzmnm/TinyBooks-QA-Chinese
收藏Hugging Face2024-06-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/fzmnm/TinyBooks-QA-Chinese
下载链接
链接失效反馈官方服务:
资源简介:
TinyBooks-QA-Chinese数据集受到TinyStories论文的启发,旨在为幼儿园和小学水平的孩子提供适合的AI生成百科全书。该数据集将经典文学作品转换为问答形式的课程,使用简单直接的语言。每个条目包含AI转换的故事、AI提取的关键词、AI生成的问答对以及反事实思维练习。设计动机包括简化语言以减少复杂长文本的噪音,并提供比TinyStories更高质量和多样性的替代品。警告部分提到关键词提取的保真度低,不适合用于训练摘要模型,且内容需要人工事实检查和安全检查。数据分布不平衡,可能需要手动减少某些书籍的样本。故事长度约为700字符,但需要2k+的内容窗口来查看整个课程。
Inspired by the TinyStories paper, the TinyBooks-QA-Chinese dataset aims to provide an AI-generated encyclopedia suitable for kindergarten and grade school levels. This dataset converts classical literature into a question-answer style curriculum using simple and straightforward language. Each entry includes an AI-converted story, AI-extracted keywords, AI-generated question-answer pairs, and counterfactual thinking exercises. The design motivation includes simplifying language to reduce noise from complex long texts and providing a higher quality and more diverse alternative to TinyStories. Warnings mention the low fidelity of keyword extraction, unsuitability for training summarization models, and the need for human fact-checking and safety checks. The data distribution is unbalanced, and manual reduction of samples from certain books may be necessary. The story length is around 700 characters, but a 2k+ content window is needed to view the entire curriculum.
提供机构:
fzmnm
原始信息汇总
TinyBooks-QA-Chinese
数据集概述
TinyBooks-QA-Chinese 是一个由 AI 生成的数据集,旨在将经典文学作品转换为适合幼儿园和小学水平的问答式课程。数据集使用简单直白的语言,适合年轻儿童阅读。
数据集内容
每个数据集条目包含以下内容:
- AI 转换的经典文学故事
- AI 提取的故事关键词
- AI 生成的问答对,用于简单的阅读理解任务
- AI 生成的反事实思维练习,包括一个“如果”问题和一个故事的替代结局
设计动机
- 将阅读理解和下一个词预测所需的所有关键信息打包到一个小的上下文窗口中,使用简化的语言,减少复杂长篇语料中缺乏上下文的噪音。
- 提供一个高质量和更多样化的替代方案,同时保持语言的简洁性。
警告
- 从故事中提取的关键词保真度较低,仅用于生成故事提示,不应用于训练摘要模型。
- 该内容不适合儿童使用,除非经过人工事实核查和安全检查。由于历史文学的性质,可能包含不适合工作场所的内容和偏见。
- 数据分布不平衡,可能需要手动减少“世说新语”(Shishuo Xinyu)的样本。
- 故事长度约为700字符,但需要2k+的内容窗口才能看到包括故事、问答和反事实练习在内的完整课程。
生成方法
生成方法包括以下步骤:
- 将文本转述成适合幼儿园小朋友阅读的700字以内的中文小故事。
- 从故事中提取五个关键词。
- 根据故事生成5个问答练习。
- 设计一个反事实思维的小练习,包括一个“如果”问题和一个新故事。
示例
示例展示了一个关于孙悟空的故事,包括故事内容、问答练习和反事实思维练习。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于人工智能技术,将经典文学作品转化为适合幼儿阅读的简易故事,并从中提取关键词、生成问答对以及反事实思维练习。具体而言,通过预设的四个不同的人工智能生成提示(prompt),分别实现故事的转述、关键词提取、问答对生成和反事实思维练习的自动构建,从而形成了一个包含故事文本、关键词、问答对及反事实思维练习的复合数据结构。
特点
TinyBooks-QA-Chinese数据集的特点在于其内容专为孩子设计,语言简练,易于理解。它不仅包含了经过简化的经典文学故事,还提供了与故事相关的问题和答案,以及反事实思维练习,有助于培养孩子的阅读理解能力和创造性思维。数据集虽小,但信息量大,旨在通过有限的故事窗口,传达阅读理解和下一词预测所需的关键信息,减少因缺乏上下文而产生的理解噪音。
使用方法
使用该数据集时,用户可以直接利用其中的故事文本进行阅读理解训练,或结合问答对进行交互式学习。此外,反事实思维练习可用于促进孩子的想象力和批判性思维。由于数据集规模较小,适合用于模型预训练或作为下游任务的辅助数据集。需要注意的是,使用前应对数据集中的故事进行适当筛选,确保内容适合目标年龄段,并经过人工审核以确保安全性和适宜性。
背景与挑战
背景概述
TinyBooks-QA-Chinese数据集,受TinyStories启发,旨在为幼儿园及小学生提供一种将经典文学作品转化为问答式课程的AI生成百科全书。该数据集的创建,是为了在一个较小的上下文窗口中,以简化的语言,封装阅读理解和下一词预测所需的所有关键信息,减少因缺乏上下文而无法理解复杂长文本的噪声。其设计动机还在于提供一个比TinyStories数据集质量更高、多样性更强的替代品,同时保持语言的简单性。该数据集的创建时间为近期,由数据集贡献者fzmnm发起,并在HuggingFace平台上共享,旨在促进中文自然语言处理领域的研究与应用。
当前挑战
该数据集在构建过程中遇到的挑战包括:关键词提取的准确性问题,由于AI可能会被误导,导致生成的文本存在安全问题,需要对儿童进行人工事实检查和安全检查;数据分布不均匀,需要手动调整样本;此外,故事长度约为700字,但为了查看完整的故事、问答和反事实练习,需要一个超过2000字的内容窗口。这些挑战表明,在构建面向儿童的教育数据集时,需要特别注意内容的准确性和安全性。
常用场景
经典使用场景
在当前的人工智能研究领域,TinyBooks-QA-Chinese数据集以其独特的古典文学转述和简化的语言风格,成为训练小型语言模型进行阅读理解和推理任务的重要资源。该数据集将经典文学作品转化为适合儿童阅读的故事,并辅以关键词提取、问题回答对以及反事实思维练习,为AI模型提供了一种在紧凑上下文中进行有效学习的可能。
实际应用
在实际应用中,TinyBooks-QA-Chinese数据集可用于开发面向儿童的教育应用,如互动故事书或阅读理解练习软件,它有助于提升儿童的语言理解和文学素养。同时,该数据集也为开发针对中文语言处理的AI模型提供了宝贵的数据资源。
衍生相关工作
基于TinyBooks-QA-Chinese数据集的研究已经衍生出一系列相关工作,包括对古典文学进行AI辅助教学的研究,以及探索小语境下语言模型性能的边界。这些研究不仅推动了AI技术在教育领域的应用,也为理解人工智能在处理复杂文化内容时的能力和局限提供了实证基础。
以上内容由遇见数据集搜集并总结生成



