TextToKids/EmoTextToKids-sentences
收藏Hugging Face2024-11-25 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/TextToKids/EmoTextToKids-sentences
下载链接
链接失效反馈官方服务:
资源简介:
EmoTextToKids数据集包含从书面文档中提取的句子,并标注了情感信息。情感通过情感类别(如恐惧、愤怒、自豪等)和表达模式(如标签化、行为化、展示化或暗示化)来表征。与通常的情感识别数据集不同,这些文档并非对话形式,而是来自报纸、百科全书、小说等面向儿童的文本。数据集支持情感识别任务,语言为法语。数据集结构包括多个字段,如previous_sentence、target_sentence、next_sentence、is_emotional、modes、types和categories。数据被分为训练集、验证集和测试集。数据集的创建过程包括手动注释和验证,注释者遵循了特定的注释指南。
EmoTextToKids provides sentences from written documents annotated in emotions. Emotions are characterized by their emotional category (fear, anger, pride...) and their expression mode (labeled, behavioral, displayed or suggester). The dataset includes fields such as previous sentence, target sentence, next sentence, is_emotional, modes, types, and categories. The dataset is divided into train, validation, and test sets, with detailed statistics provided for each subset. The data was manually annotated by 6 experts and validated by an external expert, with annotation quality assessed using Kappa coefficients. The dataset is primarily used for emotion recognition tasks.
提供机构:
TextToKids
原始信息汇总
数据集概述
数据集信息
语言
- 法语
许可证
- CC BY-SA 4.0
任务类别
- 文本分类
数据集特征
- previous_sentence: 字符串
- types: 字符串序列
- modes: 字符串序列
- categories: 字符串序列
- next_sentence: 字符串
- target_sentence: 字符串
- is_emotional: 布尔值
数据集分割
- train: 19560个样本,6845736字节
- validation: 2781个样本,958060字节
- test: 5570个样本,1969946字节
数据集大小
- 下载大小: 5791557字节
- 数据集总大小: 9773742字节
配置
- default
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
标签
- emotions
数据集描述
数据集摘要
- EmoTextToKids 提供从书面文档中提取的句子,并标注了情感。
- 情感由情感类别(如恐惧、愤怒、骄傲等)和表达模式(如标注、行为、展示或暗示)来表征。
- 文档来源包括报纸、百科全书、小说等,专为儿童设计。
支持的任务和排行榜
- 情感识别
数据实例
json { "previous_sentence": "Un an plus tard, le Sénat lui accorde la dictature sans limite dans le temps. ", "target_sentence": "Mais à Rome, la gloire de César inquiète certains sénateurs. ", "next_sentence": "Un complot commence à s’organiser autour d’un homme nommé Cassius. ", "is_emotional": true, "modes": [ "labeled" ], "types": [ "basic" ], "categories": [ "fear" ] }
数据字段
- previous_sentence: 前一句
- types: 情感类型
- modes: 表达模式
- categories: 情感类别
- next_sentence: 下一句
- target_sentence: 目标句子
- is_emotional: 是否情感句
数据分割
| 子集 | 文本数 | 句子数 | 词数 | 情感句子数 |
|---|---|---|---|---|
| train | 1,129 | 19,553 | 360K | 3,952 |
| dev | 182 | 2,770 | 53K | 438 |
| test | 283 | 5,588 | 102K | 984 |
| Total | 1,594 | 27,911 | 515K | 5,374 |
数据集创建
- 数据由6位专家手动标注,遵循标注指南。
- 标注结果通过与外部专家的标注进行对比验证。
标注过程
| 标签 | Kappa |
|---|---|
| emotional | 0.66 |
| Modes | |
| behavioral | 0.70 |
| labeled | 0.73 |
| displayed | 0.68 |
| suggested | 0.46 |
| Types | |
| basic | 0.66 |
| complex | 0.55 |
| Categories | |
| admiration | 0.53 |
| anger | 0.71 |
| guilt | 0.50 |
| disgust | 0.87 |
| embarrassment | 0.51 |
| pride | 0.25 |
| jealousy | 1.00 |
| joy | 0.51 |
| fear | 0.64 |



