five

Blog Authorship Corpus

收藏
arXiv2025-09-30 收录
下载链接:
https://u.cs.biu.ac.il/~koppel/blogcorpus.htm
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了19,320位博主撰写的帖子,共计681,288篇,字数超过1亿4千万,用于根据博主的文字来预测其年龄和性别。数据集按年龄组(10多岁、20多岁、30多岁)划分,男女博主分布均衡。每篇博文都由一个唯一的博主ID标识,且数据集中至少包含200个常见英语单词的实例。规模上,数据集涵盖了来自19,320位博主的681,288篇帖子,任务旨在进行年龄与性别的预测。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作