five

wikipedia-article-ratings

收藏
Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/wikimedia-community/wikipedia-article-ratings
下载链接
链接失效反馈
官方服务:
资源简介:
Wikipedia文章评分数据集,版本4,包含了2011年7月22日至2012年7月22日间,英文维基百科用户对文章质量的匿名评分数据。该数据集共有47,207,448条记录,涉及11,801,862个独特的评分。评分是基于四个不同的维度:可信度、客观性、完整性和写作质量,每个维度的评分范围是1到5。数据集以UTC时间戳、页面ID、页面标题、页面命名空间、修订ID、用户ID(匿名或注册用户)、评分维度键和评分值等字段组成。
创建时间:
2025-05-22
原始信息汇总

Wikipedia Article Ratings (V4) 数据集概述

基本信息

  • 数据集名称: Wikipedia Article Ratings, Version 4
  • 许可证: CC0-1.0
  • 语言: 英语 (en)
  • 数据集大小: 2,617,283,625 字节
  • 下载大小: 664,623,140 字节
  • 记录数量: 47,207,448 条
  • 唯一评分数量: 11,801,862 条
  • 时间范围: 2011年7月22日至2012年7月22日

数据集内容

  • 数据来源: 英文维基百科文章评分系统 (Article Feedback v4)
  • 评分维度:
    • 1: 可信度 (trustworthy)
    • 2: 客观性 (objective)
    • 3: 完整性 (complete)
    • 4: 写作质量 (well-written)
  • 评分范围: 1-5 分 (0 表示未评分)

字段说明

  1. timestamp: 时间戳 (UTC)
  2. page_id: 文章ID
  3. page_title: 文章标题
  4. page_namespace: 文章命名空间 (0 表示主命名空间)
  5. rev_id: 修订ID (被评分的文章版本)
  6. user_id: 评分者类型 (0: 匿名用户, 1: 注册用户)
  7. rating_key: 评分维度编号
  8. rating_value: 评分值

技术信息

  • 数据格式: JSON
  • 特征类型:
    • timestamp: timestamp[s, tz=UTC]
    • page_id: int64
    • page_title: string
    • page_namespace: uint8
    • rev_id: int64
    • user_id: bool
    • rating_key: int64
    • rating_value: uint8

相关资源

  • 主页: https://old.datahub.io/dataset/wikipedia-article-ratings
  • 数据源: http://www.mediawiki.org/wiki/Article_feedback/Version_4
  • 研究报告: https://www.mediawiki.org/wiki/Article_feedback/Research
  • 作者: Dario Taraborelli (dario@wikimedia.org)
  • 创建时间: 2012年10月22日
  • 最后更新时间: 2013年10月11日
搜集汇总
数据集介绍
main_image_url
构建方式
维基百科文章评级数据集通过部署文章反馈工具第四版(AFTv4)系统性地收集用户对英文维基百科文章的质量评估。该工具自2011年7月22日起在除少数文章外的全平台实施,持续记录匿名与注册用户从可信度、客观性、完整性和文笔质量四个维度对文章版本进行的1-5级评分,最终形成包含4720万条记录的时间序列数据集。
特点
本数据集以多维评级体系为核心特征,每条记录包含时间戳、文章元数据、评分维度标识及具体评分值。其独特之处在于通过布尔字段区分匿名与注册用户行为,并保留被评分文章的具体版本标识,为研究群体智能与内容质量关联提供了细粒度数据支撑。四类评分维度与五级量表的结合构建了立体化质量评估框架。
使用方法
研究者可基于时间序列分析评级趋势演变,通过页面标识追踪特定文章质量动态,或结合用户类型字段比较不同群体评分差异。数据集支持构建质量预测模型、评估维基百科协作机制的有效性,亦可通过跨维度关联分析揭示内容质量的多重影响因素。使用前需注意2012年7月后反馈机制已升级为AFTv5版本。
背景与挑战
背景概述
维基媒体基金会于2010年启动文章反馈工具项目,旨在通过众包方式评估在线百科内容质量。2011年7月正式部署的第四代文章评级系统覆盖英语维基百科绝大部分条目,在一年间累积超过4700万条多维评分记录。该项目由维基媒体研究院主导开发,通过量化信任度、客观性、完整性与可读性四个维度,为数字时代群体智慧构建知识质量评估体系提供了重要实证基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,需要解决开放式协作平台中非专业用户对复杂知识内容进行多维度质量评估的信度验证难题;在构建过程中,需处理匿名用户与注册用户行为差异对数据一致性的影响,同时克服大规模实时评分数据在时间戳对齐和版本关联方面的技术障碍。
常用场景
经典使用场景
在数字信息质量评估领域,wikipedia-article-ratings数据集为大规模用户反馈分析提供了宝贵资源。该数据集通过四维评分机制(可信度、客观性、完整性、写作质量),支撑了维基百科文章质量动态监测系统的构建,使研究者能够追踪超过1100万条独立评分在时间维度上的演变规律。
实际应用
在实践层面,该数据集被广泛应用于构建智能内容审核系统。教育机构利用其开发信息素养评估工具,新闻机构借鉴其评级框架优化事实核查流程,数字平台则基于该数据训练自动质量检测算法,有效提升了网络知识传播的可靠性与准确性。
衍生相关工作
基于该数据集衍生的经典研究包括维基媒体基金会发布的《评级者专业度分析报告》,以及多个跨语言质量评估模型的构建。这些工作不仅深化了对群体评价行为模式的理解,更催生了新一代协作式知识评估标准,为后续AFTv5反馈系统的设计提供了理论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作