five

Even Good Bots Fight: The Case of Wikipedia

收藏
DataCite Commons2020-09-02 更新2024-07-25 收录
下载链接:
https://figshare.com/articles/dataset/Even_Good_Bots_Fight_The_Case_of_Wikipedia/4597918
下载链接
链接失效反馈
官方服务:
资源简介:
Each file contains the history of all the articles in the WP. Articles are separated by their names within the file. Each line of the file below the name of an article, contains a delimiter "^^^" followed by the timestamp of each edit, a binary flag of 0/1 corresponding to a normal/revert edit, an accenting integer code, starting from 1, assigned to each new revision, whose text is not similar to any of the previous ones, otherwise the same code as the previous version with the similar text, and finally the editor of the version.

本数据集的每个文件均收录维基百科(Wikipedia)全站所有条目的编辑历史。文件内以条目标识名称作为分隔依据,区分不同条目的编辑历史记录。每条位于条目标识下方的记录均以分隔符"^^^"作为起始标识,后续依次包含以下字段:本次编辑的时间戳、用于区分编辑类型的0/1二进制标识(0代表常规编辑,1代表回滚编辑)、一组递增整型编码:若新版本文本与此前所有版本均无相似性,则从1开始为该新修订版本分配该编码;若新版本文本与某一旧版本相似,则直接沿用该旧版本的对应编码,最后为该修订版本的编辑者信息。
提供机构:
figshare
创建时间:
2017-01-31
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作