five

sagteam/author_profiling

收藏
Hugging Face2022-08-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sagteam/author_profiling
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于俄语文本的作者分析,包含标注了五个任务的俄语文本:性别、年龄、年龄模仿、性别模仿和风格模仿。数据集通过Yandex.Toloka众包平台收集,包含训练、验证和测试集,分别有9564、1320和2564个文本。数据集支持多类和多标签文本分类任务,并提供了基线模型的性能指标。
提供机构:
sagteam
原始信息汇总

数据集概述

数据集名称

  • 名称: The Corpus for the analysis of author profiling in Russian-language texts
  • 别名: author_profiling

数据集基本信息

  • 语言: 俄语 (ru)
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 来源: 原始数据集
  • 任务类别: 文本分类
  • 具体任务: 多类别分类, 多标签分类

数据集内容

  • 性别: 13448个文本,标记为女性或男性
  • 年龄: 13448个文本,标记年龄范围从12到80,以及5个年龄组
  • 年龄模仿: 8460个文本,作者被要求以自然风格、年轻风格和年长风格写作
  • 性别模仿: 4988个文本,作者被要求以原始性别和相反性别写作
  • 风格模仿: 4988个文本,作者被要求以自己的性别但改变通常风格写作

数据集结构

  • 数据实例: 每个实例包含俄语文本及其作者分析标注
  • 数据字段: 包括文本ID、作者ID、账户ID、年龄、性别、模仿类型等
  • 数据分割: 训练集9564个文本,验证集1320个文本,测试集2564个文本

数据集创建

  • 采集平台: Yandex.Toloka
  • 标注过程: 通过众包平台收集文本,作者填写性别、年龄等信息
  • 标注者: 俄语母语的Yandex.Toloka用户
  • 数据匿名化: 所有个人数据已匿名处理,每个作者有一个唯一的非个人标识符

使用注意事项

  • 社会影响: 待补充
  • 偏见讨论: 待补充
  • 其他已知限制: 待补充

附加信息

  • 数据集管理者: AI技术实验室,NRC "Kurchatov Institute"
  • 许可证: Apache License 2.0
  • 引用信息: 参考文献详细信息,请参阅README文件中的引用部分
  • 贡献者: 感谢@naumov-al添加此数据集
搜集汇总
背景与挑战
背景概述
该数据集用于俄语文本的作者分析,包含五个标注任务(性别、年龄、年龄模仿、性别模仿和风格模仿),通过众包平台收集,分为训练、验证和测试集,支持多类和多标签分类任务,并提供了基线模型性能指标。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作