微信公众号语料库
收藏github2018-12-06 更新2024-05-31 收录
下载链接:
https://github.com/CharlotteSean/weixin_public_corpus
下载链接
链接失效反馈官方服务:
资源简介:
部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。数据用zip分卷压缩过的, 没有密码。预览可以看preview.json。目前数据大约3G,数据会定期更新增加。请只用于研究用途。
A portion of web-scraped articles from WeChat public accounts, with HTML removed, containing only plain text. Each line represents one article in JSON format, where 'name' denotes the WeChat public account name, 'account' is the WeChat public account ID, 'title' is the article title, and 'content' is the main body. The data is compressed in a multi-volume zip file without a password. A preview can be viewed in preview.json. The current data size is approximately 3GB, and the dataset is regularly updated and expanded. Please use this data for research purposes only.
创建时间:
2018-11-17
原始信息汇总
微信公众号语料库概述
数据集内容
- 格式: JSON
- 结构: 每行一篇,包含微信公众号名字(name)、微信公众号ID(account)、题目(title)、正文(content)。
- 处理: 已去除HTML,仅保留纯文本。
数据集存储
- 压缩格式: zip分卷压缩
- 密码: 无
- 预览文件: preview.json
数据集规模
- 当前大小: 约3G
- 更新频率: 定期更新增加
使用限制
- 用途: 仅限研究使用
搜集汇总
数据集介绍

构建方式
微信公众号语料库的构建采取网络抓取的方式,对微信公众号发布的文章进行搜集。经过去除HTML标签的处理,仅保留纯文本内容。每篇文章以JSON格式存储,包含公众号名称(name)、公众号ID(account)、文章标题(title)和文章正文(content),并以行为单位进行组织。数据通过zip格式进行压缩存储,便于传输与使用。
特点
该数据集的特点在于,它包含了大量的微信公众号文章,内容丰富多样,覆盖面广泛。数据的实时更新机制确保了库中内容的时效性。同时,所有数据均为纯文本格式,便于进行自然语言处理相关的学术研究。数据的JSON存储格式便于编程语言的解析与处理,提高了研究效率。
使用方法
用户在使用该数据集时,需先解压zip文件,获取JSON格式的文本数据。之后,可以利用各种编程语言中支持JSON解析的库来读取数据,进行文本挖掘、情感分析、话题建模等研究。使用过程中,应遵守数据使用的相关规定,仅将数据应用于研究目的,并尊重数据隐私和知识产权。
背景与挑战
背景概述
微信公众号语料库的构建旨在为自然语言处理领域提供丰富的中文文本资源。该数据集由网络抓取的微信公众号文章组成,去除了HTML标签,保留了纯文本格式,并以JSON格式存储。创建于近年来,该数据集由linsun84等人整理和维护,主要针对自然语言处理、文本挖掘以及机器学习等研究领域。其对中文自然语言处理领域的研究具有重要的推动作用,为相关算法的改进和模型的训练提供了强有力的数据支撑。
当前挑战
在构建微信公众号语料库的过程中,研究人员面临了多方面的挑战。首先,确保数据的多样性和质量是关键,因为网络内容繁杂,需要有效筛选和清洗。其次,数据集的规模和更新速度也是一大挑战,目前数据量已达3G,并需定期更新以保持时效性。此外,数据集在解决领域问题如情感分析、话题建模等时,也面临着标注一致性、模型泛化能力等挑战。
常用场景
经典使用场景
在自然语言处理领域,微信公众号语料库被广泛用于文本挖掘、情感分析以及话题检测等研究。该数据集以其庞大的文本量及贴近日常生活的语言风格,成为研究社交媒体内容特性的经典资源。
解决学术问题
该数据集有效地解决了学术界在处理社交媒体文本数据时遇到的多样性和真实性难题。其丰富的内容和多样的主题有助于研究者深入理解网络语境下的语言使用习惯,为情感分析、舆论监测等研究提供了坚实基础。
衍生相关工作
基于此数据集,研究者们衍生出了一系列相关工作,如构建社交媒体文本分析模型、探索公众号文章的传播模式以及分析公众话题的演变趋势,这些研究进一步拓宽了该数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



