sagteam/author_profiling
收藏Hugging Face2022-08-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sagteam/author_profiling
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于俄语文本的作者分析,包含标注了五个任务的俄语文本:性别、年龄、年龄模仿、性别模仿和风格模仿。数据集通过Yandex.Toloka众包平台收集,包含训练、验证和测试集,分别有9564、1320和2564个文本。数据集支持多类和多标签文本分类任务,并提供了基线模型的性能指标。
提供机构:
sagteam
原始信息汇总
数据集概述
数据集名称
- 名称: The Corpus for the analysis of author profiling in Russian-language texts
- 别名: author_profiling
数据集基本信息
- 语言: 俄语 (ru)
- 许可证: Apache-2.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 来源: 原始数据集
- 任务类别: 文本分类
- 具体任务: 多类别分类, 多标签分类
数据集内容
- 性别: 13448个文本,标记为女性或男性
- 年龄: 13448个文本,标记年龄范围从12到80,以及5个年龄组
- 年龄模仿: 8460个文本,作者被要求以自然风格、年轻风格和年长风格写作
- 性别模仿: 4988个文本,作者被要求以原始性别和相反性别写作
- 风格模仿: 4988个文本,作者被要求以自己的性别但改变通常风格写作
数据集结构
- 数据实例: 每个实例包含俄语文本及其作者分析标注
- 数据字段: 包括文本ID、作者ID、账户ID、年龄、性别、模仿类型等
- 数据分割: 训练集9564个文本,验证集1320个文本,测试集2564个文本
数据集创建
- 采集平台: Yandex.Toloka
- 标注过程: 通过众包平台收集文本,作者填写性别、年龄等信息
- 标注者: 俄语母语的Yandex.Toloka用户
- 数据匿名化: 所有个人数据已匿名处理,每个作者有一个唯一的非个人标识符
使用注意事项
- 社会影响: 待补充
- 偏见讨论: 待补充
- 其他已知限制: 待补充
附加信息
- 数据集管理者: AI技术实验室,NRC "Kurchatov Institute"
- 许可证: Apache License 2.0
- 引用信息: 参考文献详细信息,请参阅README文件中的引用部分
- 贡献者: 感谢@naumov-al添加此数据集
搜集汇总
背景与挑战
背景概述
该数据集用于俄语文本的作者分析,包含五个标注任务(性别、年龄、年龄模仿、性别模仿和风格模仿),通过众包平台收集,分为训练、验证和测试集,支持多类和多标签分类任务,并提供了基线模型性能指标。
以上内容由遇见数据集搜集并总结生成



