five

TokTrack

收藏
arXiv2017-03-24 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/345571
下载链接
链接失效反馈
官方服务:
资源简介:
TokTrack数据集是由GESIS - 莱布尼茨社会科学研究所和卡尔斯鲁厄理工学院创建的,包含了截至2016年10月的所有非删除、非重定向的英文维基百科文章中的每个令牌(约等于单词)实例,总计约135亿个实例。每个令牌都详细记录了其原始创建的修订版本以及所有删除和可能重新添加的修订版本,使得可以完整追踪每个令牌的历史。该数据集的创建过程涉及从维基媒体提供的XML数据库转储中提取文章页面,并使用WikiWho算法处理修订历史,以解析和记录令牌的变化。TokTrack数据集的应用领域广泛,包括计算令牌的起源、测量内容随时间的生存情况、详细冲突指标以及编辑者之间的精细交互分析,旨在解决维基百科内容协作和冲突分析中的问题。
提供机构:
GESIS - 莱布尼茨社会科学研究所
创建时间:
2017-03-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作