sagteam/author_profiling

收藏

Hugging Face2022-08-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sagteam/author_profiling

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于俄语文本的作者分析，包含标注了五个任务的俄语文本：性别、年龄、年龄模仿、性别模仿和风格模仿。数据集通过Yandex.Toloka众包平台收集，包含训练、验证和测试集，分别有9564、1320和2564个文本。数据集支持多类和多标签文本分类任务，并提供了基线模型的性能指标。

提供机构：

sagteam

原始信息汇总

数据集概述

数据集名称

名称: The Corpus for the analysis of author profiling in Russian-language texts
别名: author_profiling

数据集基本信息

语言: 俄语 (ru)
许可证: Apache-2.0
多语言性: 单语种
大小: 10K<n<100K
来源: 原始数据集
任务类别: 文本分类
具体任务: 多类别分类, 多标签分类

数据集内容

性别: 13448个文本，标记为女性或男性
年龄: 13448个文本，标记年龄范围从12到80，以及5个年龄组
年龄模仿: 8460个文本，作者被要求以自然风格、年轻风格和年长风格写作
性别模仿: 4988个文本，作者被要求以原始性别和相反性别写作
风格模仿: 4988个文本，作者被要求以自己的性别但改变通常风格写作

数据集结构

数据实例: 每个实例包含俄语文本及其作者分析标注
数据字段: 包括文本ID、作者ID、账户ID、年龄、性别、模仿类型等
数据分割: 训练集9564个文本，验证集1320个文本，测试集2564个文本

数据集创建

采集平台: Yandex.Toloka
标注过程: 通过众包平台收集文本，作者填写性别、年龄等信息
标注者: 俄语母语的Yandex.Toloka用户
数据匿名化: 所有个人数据已匿名处理，每个作者有一个唯一的非个人标识符

使用注意事项

社会影响: 待补充
偏见讨论: 待补充
其他已知限制: 待补充

附加信息

数据集管理者: AI技术实验室，NRC "Kurchatov Institute"
许可证: Apache License 2.0
引用信息: 参考文献详细信息，请参阅README文件中的引用部分
贡献者: 感谢@naumov-al添加此数据集

搜集汇总

背景与挑战

背景概述

该数据集用于俄语文本的作者分析，包含五个标注任务（性别、年龄、年龄模仿、性别模仿和风格模仿），通过众包平台收集，分为训练、验证和测试集，支持多类和多标签分类任务，并提供了基线模型性能指标。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作