CEReD
收藏Hugging Face2024-09-15 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/MU-NLPC/CEReD
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两种主要子集:'cs-orig-diaries' 和 'cs'/'en'。'cs-orig-diaries' 子集包含原始反思日记的全文以及作者对问卷的回答,而 'cs' 和 'en' 子集分别包含捷克语和英语的独立句子,用于训练分类器。该数据集是反思分类项目的一部分,用于文本分类任务。每个条目都包含详细的属性,如唯一ID、文本内容和评估指标。该数据集采用Apache 2.0许可证,并提供捷克语和英语版本。
提供机构:
NLP Centre, Faculty of Informatics, Masaryk University
创建时间:
2024-09-15
原始信息汇总
Czech-English Reflective Dataset (CEReD)
概述
CEReD数据集包含捷克语和英语的反思性文本数据,分为两种类型的子集:
cs-orig-diaries:包含原始反思日记的全文及作者对问卷的回答。cs和en:包含用于训练分类器的独立句子,分别以捷克语(cs)和英语(en)提供。
数据集配置
cs 配置
- 特征:
idx:唯一句子ID,类型为int64context:分类句子周围的文本上下文,类型为stringsentence:分类句子的文本,类型为stringy:句子目标类别,类型为stringconfidence:句子在其分配类别中的典型性,类型为stringy_requires_context:标注者是否需要查看上下文来选择类别,类型为string
- 分割:
train:6096个样本,3069614字节validation:339个样本,173932字节test:339个样本,168255字节
- 下载大小:2135425字节
- 数据集大小:3411801字节
cs-orig-diaries 配置
- 特征:
id:唯一反思日记ID,类型为int64person_id:日记创建者的合成ID,类型为int64subject:反思日记关注的主题,类型为stringordering:相对于同一作者其他日记的相对排名,类型为int64Q1至Q7:教师对相关实践的问卷回答,类型为int64diary:反思日记的文本,类型为string
- 分割:
train:950个样本,3071134字节
- 下载大小:1845241字节
- 数据集大小:3071134字节
en 配置
- 特征:
idx:唯一句子ID,类型为int64context:分类句子周围的文本上下文,类型为stringsentence:分类句子的文本,类型为stringy:句子目标类别,类型为stringconfidence:句子在其分配类别中的典型性,类型为stringy_requires_context:标注者是否需要查看上下文来选择类别,类型为string
- 分割:
train:6096个样本,3011633字节validation:339个样本,170585字节test:339个样本,169709字节
- 下载大小:1876865字节
- 数据集大小:3351927字节
许可证
Apache 2.0
任务类别
文本分类
语言
- 英语
- 捷克语
标签
- 教育
搜集汇总
数据集介绍

构建方式
CEReD数据集的构建基于教育领域的反思性写作研究,旨在支持文本分类任务。数据来源于匿名化的反思日记和分离的句子,涵盖了捷克语(cs)和英语(en)两种语言版本。数据集通过问卷收集了教师对学生表现的评估,并结合反思日记的文本内容,形成了丰富的标注数据。数据集的构建过程严格遵循了科学的数据采集和标注流程,确保了数据的质量和可靠性。
特点
CEReD数据集的特点在于其多样化的数据结构和丰富的标注信息。数据集包含两个主要子集:`cs-orig-diaries`和`cs/en`。`cs-orig-diaries`子集提供了完整的反思日记文本以及教师对学生的评估问卷,涵盖了多个维度的评价指标。`cs/en`子集则提供了分离的句子,适用于文本分类任务,并包含了句子的上下文信息、分类标签以及标注者的置信度等详细标注。这些特点使得CEReD数据集在教育和自然语言处理领域具有广泛的应用潜力。
使用方法
CEReD数据集的使用方法主要围绕文本分类任务展开。用户可以通过加载数据集的不同子集,分别用于训练、验证和测试模型。对于`cs-orig-diaries`子集,用户可以分析反思日记的文本内容,并结合教师的评估问卷进行多维度研究。对于`cs/en`子集,用户可以利用分离的句子进行文本分类模型的训练和评估,同时通过上下文信息和标注置信度优化模型的性能。数据集的使用方法灵活多样,适用于教育研究、自然语言处理等多个领域。
背景与挑战
背景概述
CEReD(Czech-English Reflective Dataset)数据集由捷克马萨里克大学的Jan Nehyba和Michal Štefánik于2021年创建,旨在支持教育领域中反思性写作的自动分类与分析。该数据集包含捷克语和英语的反思性日记及其对应的分类标签,涵盖了教育实践中的多种情境。通过提供详细的上下文信息和分类标签,CEReD为研究者提供了一个独特的资源,用于开发和应用深度学习模型来理解和分类反思性文本。该数据集在教育技术和自然语言处理领域具有重要的应用价值,尤其是在教师培训和学生自我反思的自动化评估方面。
当前挑战
CEReD数据集在构建和应用过程中面临多重挑战。首先,反思性文本的多样性和主观性使得分类任务复杂化,尤其是在缺乏明确上下文时,模型难以准确捕捉文本的情感与意图。其次,数据集的构建依赖于人工标注,而不同标注者之间的主观差异可能导致标签不一致,影响模型的训练效果。此外,跨语言翻译(如捷克语到英语)可能引入语义偏差,进一步增加了分类的难度。最后,如何有效利用上下文信息来提升分类性能,仍是一个亟待解决的技术难题。这些挑战不仅影响了数据集的构建质量,也对后续模型的开发和应用提出了更高的要求。
常用场景
经典使用场景
CEReD数据集在教育领域的应用尤为突出,特别是在教师反思性写作的分类与分析中。该数据集通过提供捷克语和英语的反思日记文本,支持研究者开发自动化工具来评估教师的反思质量。这些工具能够帮助教育机构更有效地监控和提升教师的专业发展。
衍生相关工作
基于CEReD数据集,研究者已经开发了多种深度学习模型和算法,用于文本分类和情感分析。这些工作不仅推动了教育技术领域的发展,也为其他领域的文本分析研究提供了宝贵的参考和启示。例如,一些研究利用该数据集探索了多语言文本处理的新方法,为跨文化教育研究提供了新的视角。
数据集最近研究
最新研究方向
近年来,CEReD数据集在教育技术领域的研究中展现出显著的应用潜力,特别是在深度语言模型对反思性写作的分析与分类方面。该数据集不仅提供了丰富的捷克语和英语对照文本,还包含了详细的教师评价和学生反思日记,为研究者提供了多维度的数据支持。当前的研究热点集中在如何利用这些数据训练更精准的文本分类模型,以提升对学生反思内容的理解和评估效率。此外,随着自然语言处理技术的不断进步,CEReD数据集在跨语言文本分析、情感识别以及教育心理学的应用中也逐渐成为重要的研究工具。其开放性和多样性为教育技术领域的研究者提供了宝贵的资源,推动了相关技术的创新与发展。
以上内容由遇见数据集搜集并总结生成



