Blog Authorship Corpus 博客作者语料库
收藏阿里云天池2026-06-02 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/90243
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自2004年或之前编写的博客的文本,每个博客都是单个用户的作品。
This dataset contains texts from blogs written in or before 2004, where each blog is the work of a single user.
提供机构:
阿里云天池
创建时间:
2021-02-04
搜集汇总
数据集介绍

背景与挑战
背景概述
博客作者语料库包含2004年或之前由19,320名博客作者撰写的681,288个帖子,总计超过1.4亿单词。该数据集按作者的年龄、性别、行业和星座进行标注,适用于非商业研究目的。
以上内容由遇见数据集搜集并总结生成



