five

A Decade of News Forum Interactions

收藏
arXiv2025-06-27 更新2025-07-01 收录
下载链接:
https://dataverse.bsc.es/citation?persistentId=perma:BSC/P32CXW
下载链接
链接失效反馈
官方服务:
资源简介:
“十年新闻论坛互动”是一个大规模纵向数据集,记录了奥地利主要报纸DerStandard在线平台上用户活动,时间跨度十年(2013-2022年)。该数据集包含超过7500万条用户评论,超过4亿次的投票,以及有关文章和用户互动的详细元数据。数据集提供了结构化的对话线程,用户评论的明确点赞和点踩,以及编辑主题标签,使研究人员能够在不泄露用户隐私的情况下对在线话语进行丰富分析。为了保护用户隐私,所有持久标识符都使用加盐哈希函数进行匿名化,原始评论文本不公开共享。相反,我们发布从最先进的嵌入模型中导出的预计算向量表示。该数据集支持对讨论动态、网络结构和语义分析的研究,特别是在资源适中的德语中,为计算社会科学和相关领域提供了一个可重用的资源。

"Ten-Year News Forum Interactions" is a large-scale longitudinal dataset that records user activities on the online platform of DerStandard, a leading Austrian newspaper, spanning a ten-year period from 2013 to 2022. This dataset contains over 75 million user comments, more than 400 million votes, as well as detailed metadata related to articles and user interactions. It provides structured conversation threads, explicit upvotes and downvotes for user comments, and editorially assigned hashtags, allowing researchers to conduct rich analyses of online discourse without compromising user privacy. To protect user privacy, all persistent identifiers are anonymized using salted hash functions, and the original comment text is not publicly shared. Instead, we release pre-computed vector representations derived from state-of-the-art embedding models. This dataset supports research on discourse dynamics, network structures and semantic analysis, particularly for resource-constrained German, providing a reusable resource for computational social science and related fields.
提供机构:
奥地利研究机构
创建时间:
2025-06-27
原始信息汇总

数据集概述

基本信息

  • 标题: (Data Records) A Decade of News Forum Interactions: Threaded Conversations, Signed Votes, and Topical Tags
  • 版本: 1.0
  • 发布日期: 2025-06-27
  • 作者:
    • Fraxanet Morales, Emma (Universitat Pompeu Fabra)
    • Pellert, Max (Barcelona Supercomputing Center)
    • Kaltenbrunner, Andreas (Universitat Oberta de Catalunya)
    • Gómez, Vicenç (Universitat Pompeu Fabra)
  • 数据集所有者: Fraxanet, Emma (Universitat Pompeu Fabra)
  • 数据集访问地址: https://dataverse.bsc.es/citation?persistentId=perma:BSC/P32CXW

数据集内容

  • 描述: 该数据集包含“A Decade of News Forum Interactions: Threaded Conversations, Signed Votes, and Topical Tags”出版物中描述的完整数据记录。包括用户级元数据、评论级数据、投票行为、文章元数据和预计算的文本嵌入。此外,还包括:
    • 与先前工作相关的注释子集
    • 派生摘要元数据
    • 解决数据不一致的补充文件
    • 用于读取和解压缩文件的使用说明
    • 访问和处理数据的基本示例代码
  • 数据格式: 所有数据文件均以压缩的TSV格式提供,按类型和时间分辨率(月度或年度)组织。

主题与关键词

  • 主题:
    • 计算机与信息科学
    • 社会科学
  • 关键词:
    • Discussion Forums
    • Networks
    • Text Embeddings
    • Social Media Platforms
    • Signed Networks
    • Discussion Threads
    • Longitudinal Data

时间与范围

  • 时间范围: 2013-01-01 至 2022-01-31
  • 覆盖范围: 数据集涵盖2013年1月至2022年12月期间DerStandard.at在线新闻平台上注册用户的所有用户生成活动(评论和投票)。

数据收集与处理

  • 数据收集方式: 从公共网站自动提取
  • 数据清洗操作:
    • 对所有文件进行内部一致性检查
    • 验证投票和评论之间的引用完整性
    • 识别不匹配或缺失的时间戳、已删除的用户和没有元数据的文章
    • 保留所有检测到的异常并记录在单独的日志文件中

使用许可

  • 许可证: CC BY-NC-SA 4.0

文件列表(部分)

  1. Codebook.md - Markdown文本 - 3.1 KB
  2. README.md - Markdown文本 - 4.8 KB
  3. articles_file_13.tsv - 纯文本 - 23.7 MB
  4. articles_file_14.tsv - 纯文本 - 21.9 MB
  5. articles_file_15.tsv - 纯文本 - 22.3 MB
  6. articles_file_16.tsv - 纯文本 - 23.1 MB
  7. articles_file_17.tsv - 纯文本 - 23.4 MB
  8. articles_file_18.tsv - 纯文本 - 21.6 MB
  9. articles_file_19.tsv - 纯文本 - 18.9 MB
  10. articles_file_20.tsv - 纯文本 - 16.4 MB
搜集汇总
数据集介绍
main_image_url
构建方式
在数字媒体研究领域,长期追踪用户互动数据对于理解在线讨论动态至关重要。该数据集通过向DerStandard平台发送标准HTML请求,采用curl库构建的脚本系统性地采集了2013至2022年间超过7500万条用户评论、4亿次投票及文章元数据。所有原始标识符均通过BLAKE2s加盐哈希算法进行匿名化处理,评论原文由KaLM多语言嵌入模型转化为896维向量表示,既保护用户隐私又保留语义分析价值。数据按月度或年度粒度组织,包含结构化对话线程、用户投票行为及编辑主题标签等多维度信息。
特点
作为德语区最具代表性的新闻论坛数据集,其核心价值体现在三方面:时间跨度完整覆盖奥地利社会关键十年,包含新冠疫情等重大事件的讨论轨迹;独特的显式正负投票机制为研究用户态度极化提供了直接证据;编辑标注的三级主题体系(含1722个细分类别)与预计算的语义嵌入相结合,支持从网络结构到内容分析的跨学科研究。不同于主流英语数据集,该资源特别关注奥地利标准德语变体,为中等资源语言研究填补了空白。
使用方法
研究者可通过Dataverse平台获取按类型分组的TSV压缩文件,利用共享标识符实现跨文件关联。用户文件包含活动统计指标便于筛选高活跃群体,月度投票文件记录精确的时间戳支持动态分析,而预计算的文本嵌入可直接用于语义相似度计算。注意事项包括:需合并文章标题与副标题字段以获取完整上下文,异常时间戳评论(约0.5%)建议在时序分析中排除。配套脚本提供基础数据处理示例,如线程结构重建需结合评论文件的父节点与深度字段。
背景与挑战
背景概述
《A Decade of News Forum Interactions》数据集由Emma Fraxanet等学者于2025年6月发布,收录了奥地利主流媒体DerStandard平台十年间(2013-2022)的7500万条用户评论、4亿次正负投票及文章元数据。该数据集通过盐值哈希算法匿名化用户标识,并采用KaLM多语言嵌入模型生成文本向量,为计算社会科学领域提供了兼具时间跨度与结构特征的德语研究资源。其核心价值在于捕捉新闻论坛中显式的用户互动符号(支持/反对投票)与隐式的语义关联,填补了非英语环境下大规模社会互动数据的空白,尤其适用于政治极化、话题演化等纵向研究。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决中资源语言(德语)社交媒体动态建模的复杂性,包括奥地利方言变体分析、签署网络中的极化现象量化,以及编辑标签与用户生成内容的语义对齐问题。在构建过程中,技术挑战涉及跨十年数据采集的时序一致性维护、哈希匿名化与关系保留的平衡(如BLAKE2s算法的盐值设计),以及原始文本缺失情况下基于896维嵌入向量的语义重建。此外,1.2%的异常时间戳记录与0.5%的文章元数据缺失对纵向分析提出了数据清洗要求。
常用场景
经典使用场景
在计算社会科学和网络分析领域,'A Decade of News Forum Interactions'数据集为研究在线讨论动态提供了丰富的资源。该数据集通过捕捉奥地利新闻平台DerStandard上长达十年的用户互动,包括超过7500万条评论和4亿次投票,为分析结构化对话线程、用户投票行为和编辑主题标签提供了独特视角。其经典使用场景包括探究在线社区中的意见形成过程、讨论线程的演化规律以及用户互动网络的拓扑结构。
解决学术问题
该数据集有效解决了在线社交行为研究中的多个关键问题。首先,其明确的赞成/反对投票机制为情感极化和群体动态研究提供了直接证据,克服了传统研究中依赖代理指标的局限。其次,长达十年的纵向数据使得研究者能够追踪社会事件对在线讨论的长期影响。此外,结合编辑主题标签和匿名化用户行为数据,该数据集支持对中资源德语环境下信息传播模式的研究,填补了非英语社交媒体研究的空白。
衍生相关工作
基于该数据集已产生若干经典研究。Fraxanet等人利用投票网络揭示了奥地利社会中的意识形态断层线;Pellert团队验证了社交媒体情感分析与传统调查的相关性;COVID-19研究则展示了大规模实时情感监测的可能性。数据集还与早期标注语料如'One Million Post Corpus'形成互补,共同支持德语自然语言处理任务。这些衍生工作推动了计算社会科学方法论的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作