five

Blog Authorship Corpus 博客作者语料库

收藏
阿里云天池2026-06-02 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/90243
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自2004年或之前编写的博客的文本,每个博客都是单个用户的作品。

This dataset contains texts from blogs written in or before 2004, where each blog is the work of a single user.
提供机构:
阿里云天池
创建时间:
2021-02-04
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
博客作者语料库包含2004年或之前由19,320名博客作者撰写的681,288个帖子,总计超过1.4亿单词。该数据集按作者的年龄、性别、行业和星座进行标注,适用于非商业研究目的。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务