Blog Authorship Corpus
收藏阿里云天池2026-05-16 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/144730
下载链接
链接失效反馈官方服务:
资源简介:
The Blog Authorship Corpus consists of the collected posts of 19,320 bloggers gathered from blogger.com in August 2004. The corpus incorporates a total of 681,288 posts and over 140 million words - or approximately 35 posts and 7250 words per person.
提供机构:
阿里云天池
创建时间:
2023-01-18
搜集汇总
数据集介绍

背景与挑战
背景概述
Blog Authorship Corpus数据集包含2004年8月从blogger.com收集的19,320位博主的681,288篇帖子,总计超过1.4亿单词。每个博客文件标注了博主的性别、年龄、行业和星座等人口统计信息,并均衡覆盖三个年龄组。该数据集适用于非商业研究目的,如基于文本内容的人口特征分类分析。
以上内容由遇见数据集搜集并总结生成



