Contextual Informativeness in Children’s Stories Dataset
收藏arXiv2024-12-23 更新2024-12-25 收录
下载链接:
https://github.com/mariavale/contextual_inform
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“Contextual Informativeness in Children’s Stories Dataset”,由科罗拉多大学博尔德分校的研究团队创建,旨在评估儿童故事中目标词汇的上下文信息量。数据集包含765个目标词汇,分布在153个由大型语言模型生成的儿童故事中。每个故事中的目标词汇都经过人工标注,以评估其上下文支持程度。数据集的创建过程基于修改后的完形填空任务,通过计算预测词与真实目标词的语义相似度来评分。该数据集主要用于生成教育内容,特别是针对幼儿的词汇强化干预,旨在提高儿童的词汇量和阅读能力。
The dataset titled "Contextual Informativeness in Children’s Stories Dataset" was developed by a research team at the University of Colorado Boulder, with the core objective of evaluating the contextual informativeness of target vocabulary in children's stories. It comprises 765 target words distributed across 153 children's stories generated by large language models. Each target word within these stories has been manually annotated to assess its level of contextual support. The construction of this dataset relies on a modified cloze task, where scoring is carried out by calculating the semantic similarity between predicted words and the actual target words. This dataset is primarily designed for creating educational content, specifically vocabulary reinforcement interventions for young children, with the aim of improving children's vocabulary proficiency and reading abilities.
提供机构:
科罗拉多大学博尔德分校
创建时间:
2024-12-23
原始信息汇总
Contextual Informativeness 数据集概述
数据集描述
该数据集来源于论文《Measuring Contextual Informativeness in Child-Directed Text》,用于测量儿童导向文本中的上下文信息量。
可用数据文件
- contextual_informativeness_child.csv:包含Valentini等人(2023年)的儿童导向数据集,针对目标词进行了上下文信息量的标注。
- contextual_informativeness_adult.csv:包含Kapelner等人(2018年)的成人导向数据集中的一部分,该部分数据被重新标注以匹配儿童导向数据集的标注模式。
搜集汇总
数据集介绍

构建方式
该数据集基于Valentini等人(2023)的研究,包含180篇由大型语言模型(LLM)生成的儿童故事。每篇故事中包含五个根据儿童词汇习得年龄选择的词汇。研究团队通过修改的完形填空任务对这些词汇的上下文信息量进行了标注。具体而言,标注者需要根据上下文猜测被替换的词汇,并通过计算猜测词汇与真实词汇的语义相似度来评估上下文的信息量。最终,经过人工审核,数据集包含765个目标词汇,分布在153篇故事中。
特点
该数据集的显著特点在于其专注于儿童故事中词汇的上下文信息量评估,旨在为词汇强化教育内容提供支持。通过使用大型语言模型生成的故事,数据集捕捉了目标词汇在不同上下文中的语义信息量变化,尤其是针对儿童的词汇学习需求。此外,数据集的标注方法结合了语义相似度计算,确保了评估的客观性和科学性。
使用方法
该数据集可用于开发和评估自动生成儿童故事的模型,特别是那些旨在通过故事进行词汇强化的模型。研究者可以使用该数据集训练和测试模型,评估其在预测目标词汇上下文信息量方面的表现。此外,数据集还可用于研究不同语言模型在生成教育内容时的表现差异,并为未来开发个性化词汇干预材料提供基础。
背景与挑战
背景概述
近年来,自然语言处理(NLP)技术的快速发展使得自动生成儿童故事成为可能,尤其是在词汇强化干预方面具有重要意义。为了填补这一领域的研究空白,Maria Valentini等人提出了一项名为‘测量儿童故事中的上下文信息量’的任务,旨在评估故事对目标词汇语义传达的有效性。该数据集由科罗拉多大学博尔德分校、约翰内斯古腾堡大学美因茨分校和加州大学伯克利分校的研究团队共同创建,包含180个由大型语言模型(LLM)生成的儿童故事,每个故事包含五个目标词汇,并标注了这些词汇在故事中的上下文支持程度。该数据集的创建旨在为自动生成教育内容提供支持,尤其是针对学龄前儿童的词汇学习。
当前挑战
该数据集面临的挑战主要集中在两个方面:首先,自动生成的故事中,目标词汇往往出现在缺乏信息量的上下文中,这使得评估故事对词汇学习的有效性变得复杂。其次,构建过程中,如何准确标注目标词汇的上下文支持程度也是一个难题。研究团队通过修改完形填空任务的标注方式,采用语义相似度计算来评估标注结果,但这一方法仍需进一步验证其可靠性和一致性。此外,尽管该数据集在儿童故事领域表现优异,但其泛化能力在成人导向文本中的表现仍需进一步研究。
常用场景
经典使用场景
Contextual Informativeness in Children’s Stories Dataset 主要用于评估儿童故事中目标词汇的上下文信息量。该数据集通过自动生成的儿童故事,结合目标词汇的上下文支持程度进行标注,旨在帮助研究者开发能够自动评估故事对儿童词汇学习效果的工具。经典使用场景包括利用该数据集训练和验证模型,以预测故事中目标词汇的上下文信息量,从而筛选出最适合儿童词汇学习的文本。
解决学术问题
该数据集解决了在儿童词汇学习领域中,如何有效评估故事对目标词汇的上下文支持度这一重要学术问题。通过提供一个标注了上下文信息量的数据集,研究者能够开发自动化工具,帮助生成更具教育意义的故事内容。这不仅有助于提升儿童词汇学习的效果,还能为早期教育中的个性化干预提供支持,从而缩小教育资源的不平等。
衍生相关工作
基于该数据集,研究者们进一步探索了如何利用大型语言模型(LLM)和预训练模型(如RoBERTa)来评估上下文信息量。相关工作包括改进模型的泛化能力,使其能够应用于成人文本的上下文信息评估,以及探索如何将上下文信息量与词汇学习效果直接关联。此外,该数据集还激发了对儿童故事生成和简化技术的研究,推动了个性化教育内容生成领域的发展。
以上内容由遇见数据集搜集并总结生成



