fzmnm/TinyBooks-QA-Chinese|儿童教育数据集|AI生成内容数据集
收藏TinyBooks-QA-Chinese
数据集概述
TinyBooks-QA-Chinese 是一个由 AI 生成的数据集,旨在将经典文学作品转换为适合幼儿园和小学水平的问答式课程。数据集使用简单直白的语言,适合年轻儿童阅读。
数据集内容
每个数据集条目包含以下内容:
- AI 转换的经典文学故事
- AI 提取的故事关键词
- AI 生成的问答对,用于简单的阅读理解任务
- AI 生成的反事实思维练习,包括一个“如果”问题和一个故事的替代结局
设计动机
- 将阅读理解和下一个词预测所需的所有关键信息打包到一个小的上下文窗口中,使用简化的语言,减少复杂长篇语料中缺乏上下文的噪音。
- 提供一个高质量和更多样化的替代方案,同时保持语言的简洁性。
警告
- 从故事中提取的关键词保真度较低,仅用于生成故事提示,不应用于训练摘要模型。
- 该内容不适合儿童使用,除非经过人工事实核查和安全检查。由于历史文学的性质,可能包含不适合工作场所的内容和偏见。
- 数据分布不平衡,可能需要手动减少“世说新语”(Shishuo Xinyu)的样本。
- 故事长度约为700字符,但需要2k+的内容窗口才能看到包括故事、问答和反事实练习在内的完整课程。
生成方法
生成方法包括以下步骤:
- 将文本转述成适合幼儿园小朋友阅读的700字以内的中文小故事。
- 从故事中提取五个关键词。
- 根据故事生成5个问答练习。
- 设计一个反事实思维的小练习,包括一个“如果”问题和一个新故事。
示例
示例展示了一个关于孙悟空的故事,包括故事内容、问答练习和反事实思维练习。

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国高考录取分数线数据
高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。 CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。
CnOpenData 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录