TextToKids/EmoTextToKids
收藏Hugging Face2024-05-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/TextToKids/EmoTextToKids
下载链接
链接失效反馈官方服务:
资源简介:
EmoTextToKids数据集提供了从书面文档中提取的句子,并标注了情感信息。情感通过情感类别(如恐惧、愤怒、自豪等)和表达模式(如标记的、行为的、显示的或暗示的)来表征。与通常的情感识别数据集不同,这些文档不是对话式的,而是来自报纸、百科全书、小说等,专门针对儿童。数据集的语言为法语,任务类别为文本分类。数据集的结构包括多个字段,如previous_sentence、target_sentence、next_sentence、is_emotional、modes、types和categories。数据集分为训练集、验证集和测试集,并提供了每个子集的文本数量、句子数量、令牌数量和情感句子数量。数据集的创建过程包括手动注释和验证,注释过程由6位专家完成,并遵循特定的注释指南。
EmoTextToKids数据集提供了从书面文档中提取的句子,并标注了情感信息。情感通过情感类别(如恐惧、愤怒、自豪等)和表达模式(如标记的、行为的、显示的或暗示的)来表征。与通常的情感识别数据集不同,这些文档不是对话式的,而是来自报纸、百科全书、小说等,专门针对儿童。数据集的语言为法语,任务类别为文本分类。数据集的结构包括多个字段,如previous_sentence、target_sentence、next_sentence、is_emotional、modes、types和categories。数据集分为训练集、验证集和测试集,并提供了每个子集的文本数量、句子数量、令牌数量和情感句子数量。数据集的创建过程包括手动注释和验证,注释过程由6位专家完成,并遵循特定的注释指南。
提供机构:
TextToKids
原始信息汇总
数据集概述
数据集名称
- EmoTextToKids
数据集描述
- 提供来自儿童相关文档(如报纸、百科全书、小说)的句子,并标注了情感信息。
- 情感通过情感类别(如恐惧、愤怒、自豪等)和表达模式(如标记、行为、显示或暗示)来描述。
语言
- 法语
数据集结构
- 数据实例:包含多个字段,如
previous_sentence,target_sentence,next_sentence,is_emotional,modes,types,categories。 - 数据字段:
previous_sentence,target_sentence,next_sentence: 字符串类型is_emotional: 布尔类型modes,types,categories: 字符串序列类型,表示多个情感模式、类型和类别
数据分割
- 训练集:19560个样本,6845736字节
- 验证集:2781个样本,958060字节
- 测试集:5570个样本,1969946字节
许可证
- CC-BY-SA-4.0
支持的任务
- 情感识别
数据集创建
- 注释过程:数据由6位专家手动标注,遵循特定的标注指南。
- 注释一致性:通过与外部专家的标注进行比较,计算了kappa系数,以评估不同情感类别和模式的一致性。
引用信息
bibtex @misc{étienne2024emotion, title={Emotion Identification for French in Written Texts: Considering their Modes of Expression as a Step Towards Text Complexity Analysis}, author={Aline Étienne and Delphine Battistelli and Gwénolé Lecorvé}, year={2024}, eprint={2405.14385}, archivePrefix={arXiv}, primaryClass={cs.CL} }



