CEReD

Name: CEReD
Creator: NLP Centre, Faculty of Informatics, Masaryk University
Published: 2024-09-15 04:06:57
License: 暂无描述

Hugging Face2024-09-15 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/MU-NLPC/CEReD

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两种主要子集：'cs-orig-diaries' 和 'cs'/'en'。'cs-orig-diaries' 子集包含原始反思日记的全文以及作者对问卷的回答，而 'cs' 和 'en' 子集分别包含捷克语和英语的独立句子，用于训练分类器。该数据集是反思分类项目的一部分，用于文本分类任务。每个条目都包含详细的属性，如唯一ID、文本内容和评估指标。该数据集采用Apache 2.0许可证，并提供捷克语和英语版本。

提供机构：

NLP Centre, Faculty of Informatics, Masaryk University

创建时间：

2024-09-15

原始信息汇总

Czech-English Reflective Dataset (CEReD)

概述

CEReD数据集包含捷克语和英语的反思性文本数据，分为两种类型的子集：

cs-orig-diaries：包含原始反思日记的全文及作者对问卷的回答。
cs 和 en：包含用于训练分类器的独立句子，分别以捷克语（cs）和英语（en）提供。

数据集配置

`cs` 配置

特征：
- idx：唯一句子ID，类型为int64
- context：分类句子周围的文本上下文，类型为string
- sentence：分类句子的文本，类型为string
- y：句子目标类别，类型为string
- confidence：句子在其分配类别中的典型性，类型为string
- y_requires_context：标注者是否需要查看上下文来选择类别，类型为string
分割：
- train：6096个样本，3069614字节
- validation：339个样本，173932字节
- test：339个样本，168255字节
下载大小：2135425字节
数据集大小：3411801字节

`cs-orig-diaries` 配置

特征：
- id：唯一反思日记ID，类型为int64
- person_id：日记创建者的合成ID，类型为int64
- subject：反思日记关注的主题，类型为string
- ordering：相对于同一作者其他日记的相对排名，类型为int64
- Q1 至 Q7：教师对相关实践的问卷回答，类型为int64
- diary：反思日记的文本，类型为string
分割：
- train：950个样本，3071134字节
下载大小：1845241字节
数据集大小：3071134字节

`en` 配置

特征：
- idx：唯一句子ID，类型为int64
- context：分类句子周围的文本上下文，类型为string
- sentence：分类句子的文本，类型为string
- y：句子目标类别，类型为string
- confidence：句子在其分配类别中的典型性，类型为string
- y_requires_context：标注者是否需要查看上下文来选择类别，类型为string
分割：
- train：6096个样本，3011633字节
- validation：339个样本，170585字节
- test：339个样本，169709字节
下载大小：1876865字节
数据集大小：3351927字节

许可证

Apache 2.0

任务类别

文本分类

语言

英语
捷克语

CEReD数据集的构建基于教育领域的反思性写作研究，旨在支持文本分类任务。数据来源于匿名化的反思日记和分离的句子，涵盖了捷克语（cs）和英语（en）两种语言版本。数据集通过问卷收集了教师对学生表现的评估，并结合反思日记的文本内容，形成了丰富的标注数据。数据集的构建过程严格遵循了科学的数据采集和标注流程，确保了数据的质量和可靠性。

特点

CEReD数据集的特点在于其多样化的数据结构和丰富的标注信息。数据集包含两个主要子集：`cs-orig-diaries`和`cs/en`。`cs-orig-diaries`子集提供了完整的反思日记文本以及教师对学生的评估问卷，涵盖了多个维度的评价指标。`cs/en`子集则提供了分离的句子，适用于文本分类任务，并包含了句子的上下文信息、分类标签以及标注者的置信度等详细标注。这些特点使得CEReD数据集在教育和自然语言处理领域具有广泛的应用潜力。

使用方法

CEReD数据集的使用方法主要围绕文本分类任务展开。用户可以通过加载数据集的不同子集，分别用于训练、验证和测试模型。对于`cs-orig-diaries`子集，用户可以分析反思日记的文本内容，并结合教师的评估问卷进行多维度研究。对于`cs/en`子集，用户可以利用分离的句子进行文本分类模型的训练和评估，同时通过上下文信息和标注置信度优化模型的性能。数据集的使用方法灵活多样，适用于教育研究、自然语言处理等多个领域。

背景与挑战

背景概述

CEReD（Czech-English Reflective Dataset）数据集由捷克马萨里克大学的Jan Nehyba和Michal Štefánik于2021年创建，旨在支持教育领域中反思性写作的自动分类与分析。该数据集包含捷克语和英语的反思性日记及其对应的分类标签，涵盖了教育实践中的多种情境。通过提供详细的上下文信息和分类标签，CEReD为研究者提供了一个独特的资源，用于开发和应用深度学习模型来理解和分类反思性文本。该数据集在教育技术和自然语言处理领域具有重要的应用价值，尤其是在教师培训和学生自我反思的自动化评估方面。

当前挑战

CEReD数据集在构建和应用过程中面临多重挑战。首先，反思性文本的多样性和主观性使得分类任务复杂化，尤其是在缺乏明确上下文时，模型难以准确捕捉文本的情感与意图。其次，数据集的构建依赖于人工标注，而不同标注者之间的主观差异可能导致标签不一致，影响模型的训练效果。此外，跨语言翻译（如捷克语到英语）可能引入语义偏差，进一步增加了分类的难度。最后，如何有效利用上下文信息来提升分类性能，仍是一个亟待解决的技术难题。这些挑战不仅影响了数据集的构建质量，也对后续模型的开发和应用提出了更高的要求。

常用场景

经典使用场景

CEReD数据集在教育领域的应用尤为突出，特别是在教师反思性写作的分类与分析中。该数据集通过提供捷克语和英语的反思日记文本，支持研究者开发自动化工具来评估教师的反思质量。这些工具能够帮助教育机构更有效地监控和提升教师的专业发展。

衍生相关工作

基于CEReD数据集，研究者已经开发了多种深度学习模型和算法，用于文本分类和情感分析。这些工作不仅推动了教育技术领域的发展，也为其他领域的文本分析研究提供了宝贵的参考和启示。例如，一些研究利用该数据集探索了多语言文本处理的新方法，为跨文化教育研究提供了新的视角。

数据集最近研究