文不加点的张衔瑜微信公众号文章数据集

github2025-09-02 更新2025-09-03 收录

下载链接：

https://github.com/xianyu564/scrape-my-wechat-official-account

下载链接

链接失效反馈

官方服务：

资源简介：

个人日记型公众号数据集，记录日常生活、旅行见闻、思想火花与社会观察，累计八年写作，包含八十万字、近四百篇图文，按年份/日期自动归档，每篇含HTML、Markdown、images与meta.json格式

Personal diary-style WeChat Official Account dataset, which documents daily life, travel experiences, sparks of thought and social observations. It includes nearly 400 text-image articles totaling 800,000 words accumulated over eight years of writing. The dataset is automatically archived by year and date, with each entry available in HTML, Markdown, image files, and meta.json formats.

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称：微信公众号文章备份工具及语料库
数据来源：个人微信公众号《文不加点的张衔瑜》
时间跨度：2017-2025年（累计八年）
数据规模：八十万字、近四百篇图文
数据格式：HTML、Markdown、JSON、图像文件
许可证：
- 代码部分：MIT License
- 内容部分：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International

数据内容

语料构成

文章类型：个人日记、旅行见闻、思想火花、社会观察
主题领域：AI、计算化学、生物医药、周易、科技与哲学
作者背景：哲学博士，已完成个人职业兴趣认证

文件结构

主目录：Wechat-Backup/文不加点的张衔瑜/
编年目录：Wechat-Backup/文不加点的张衔瑜/目录.md（按时间顺序，含年度字数/图片合计、全局编号）
主题合集：Wechat-Backup/文不加点的张衔瑜/合集.md（按主题分类，含专题详情和格式规范）

单篇文章结构

每篇文章包含以下文件：

*.html：完整HTML格式文章
*.md：Markdown格式文章（保留外链，适合GitHub/Obsidian）
meta.json：元数据文件
images/：本地化图片资源目录

技术特性

数据采集功能

智能抓取微信公众号已发布文章
支持分页获取和智能去重
图片自动下载和本地化
支持HTML和Markdown多格式输出
按年份自动组织备份文件结构

性能优化

可配置抓取速度和分页大小
断点续传支持（通过_state.json记录抓取状态）
平衡效率与稳定性的速率控制

学术应用价值

语料分析功能

词云生成：覆盖2017-2025全年份，支持中文显示
语言学分析：Zipf定律、Heaps定律、TF-IDF、词汇多样性等指标
智能分词：支持中英混合文本，可变长度n-gram分析
自动化报告：完整的数据驱动分析报告生成

学术标准

符合WWW/SIGIR/ICWSM等顶级会议要求的性能基准测试
科学级质量评估体系
多种学术配色方案的高级可视化

使用指引

快速开始

克隆仓库：git clone https://github.com/xianyu564/scrape-my-wechat-official-account.git
安装依赖：pip install -r requirements.txt
配置环境：复制env.json.EXAMPLE为env.json并填写配置
运行脚本：python script/wx_publish_backup.py

最小配置要求

json { "WECHAT_ACCOUNT_NAME": "公众号名称", "COOKIE": "浏览器Cookie", "TOKEN": "发表记录页token值" }

研究应用方向

未来发展规划

个人AI对话模型训练
写作风格和知识结构研究
主题演化和知识图谱构建
自反式个人社会现场研究

注意事项

配置文件env.json包含敏感信息，已添加到.gitignore
建议设置合理的抓取间隔，避免访问限制
本地直接打开HTML可能受浏览器策略限制，建议使用静态服务器访问
请遵守微信公众平台的使用条款和相关法律法规

搜集汇总

数据集介绍

构建方式

在数字人文研究领域，微信公众号文章作为重要的文本数据源，其系统化采集与整理面临技术挑战。该数据集通过自主研发的爬虫工具构建，采用浏览器模拟技术绕过官方接口限制，实现了对目标公众号历史文章的自动化抓取。数据采集过程包含文章列表获取、内容解析、多媒体资源本地化等环节，辅以智能去重与断点续传机制，确保数据完整性与采集效率。每篇文章均以HTML和Markdown双格式保存，并配备元数据文件与本地化图片资源，形成多模态数据归档体系。

特点

该数据集呈现个人写作的历时性特征，涵盖八年创作周期的八十万字文本与近四百篇图文内容。内容维度上包含生活日志、旅行见闻、哲学思考及科技评论等多主题文本，折射出作者跨学科的知识背景与持续性的写作实践。数据结构采用编年与主题双轨制组织，既保留时间序列的完整性，又提供主题导向的检索路径。文本经过标准化处理，支持词频分析、主题建模等语言学研究方法，同时保留原始排版与多媒体元素，为数字人文研究提供高质量语料。

使用方法

研究者可通过GitHub仓库直接访问已备份的语料目录，按编年或主题分类浏览文章内容。对于文本分析需求，Markdown格式文件提供清洁的文本数据，适用于词频统计、主题演化等计算语言学分析。HTML格式文件则支持内容呈现与版式研究，配合本地服务器可实现完整的内容重现。数据集配备学术级分析工具链，支持词云生成、n-gram分析等可视化研究，同时满足个性化语言模型训练的数据要求。使用过程中需注意遵守知识共享许可协议，确保非商业用途的合规性。

背景与挑战

背景概述

文不加点的张衔瑜微信公众号文章数据集由哲学博士张衔瑜于2025年创建，收录其个人公众号长达八年的原创内容。该数据集包含近四百篇图文作品，总计约八十万字，涵盖生活日志、旅行见闻、社会观察及跨学科思考等多个领域。作为个人日记型公众号的完整语料库，它不仅为自我存档和长期复盘提供支持，更为计算社会科学与数字人文研究提供了珍贵的纵向文本资源，对个性化语言模型训练和自媒体内容分析具有重要参考价值。

当前挑战

该数据集主要解决微信公众号内容持久化与学术化利用的挑战，包括应对平台接口变更导致的数据获取障碍，以及多模态内容（图文混合）的完整性保存。构建过程中面临微信官方接口停用的技术壁垒，需通过模拟浏览器行为实现逆向抓取；同时需处理大量非结构化数据的标准化转换，确保HTML与Markdown双格式输出的兼容性，并维护本地化图片资源与元数据的关联一致性。

常用场景

经典使用场景

在数字人文与计算社会科学领域，该数据集为研究者提供了丰富的个人叙事文本资源。其经典使用场景包括自然语言处理中的文本风格分析、时间序列上的写作演变研究，以及跨学科的主题挖掘。通过对八年间的个人日记型内容进行结构化处理，研究者能够深入探索个体表达与时代背景的交互关系，为数字时代的自我记录研究奠定数据基础。

衍生相关工作

该数据集已衍生出多个方向的经典研究工作，包括基于Zipf定律与Heaps定律的语言学分析系统、符合WWW/SIGIR等顶会标准的词云可视化工具，以及个性化对话模型训练框架。这些工作不仅推动了个人语料分析的方法论创新，还为数字人文研究提供了可复用的技术范式，促进了学术研究与实践应用的深度融合。

数据集最近研究