EFAHRER.com dataset

github2024-04-24 更新2024-05-31 收录

下载链接：

https://github.com/eburakova/d-drivers

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在识别吸引用户流量的内容历史中的因素，包括逆向工程一些新闻源提供者的算法（即新闻源）。

This dataset is designed to identify factors in the history of content that attract user traffic, including reverse engineering the algorithms of some news feed providers (i.e., news feeds).

创建时间：

2024-04-23

原始信息汇总

数据集概述

数据集名称

名称: D-Drivers: data-driven search of traffic drivers

数据集内容

数据结构: 包含多个列，用于描述网页的详细信息和性能指标。
主要列信息:
- ID: 网页在系统中的唯一标识。
- DATE: 指标分组的日期。
- PUBLISHED_AT: 文章实际发布的时间。
- PUBLISH_DATE_EQUAL_TO_DATE: 分组日期是否与发布日期相同。
- PAGE_CANONICAL_URL: 网页的完整实际URL。
- PAGE_NAME: 网页的完整名称，包括ID和标题。
- CLASSIFICATION_PRODUCT: 文章主题。
- CLASSIFICATION_TYPE: 文章类型（新闻、评论等）。
- TITLE: 网页标题，不包括完整ID。
- PAGE_AUTHOR: 文章的作者。
- VIDEO_PLAYER_TYPE: 视频播放器的标准实现方式或小部件。
- DAILY_LIKES: 报告日期前一天与报告日期之间的点赞数差值。
- DAILY_DISLIKES: 报告日期前一天与报告日期之间的不喜欢数差值。
- WORD_COUNT: 网页上的字数。
- VIDEO_PLAY: 网页上视频播放的次数。
- IMPRESSIONS: 网页被用户加载的次数。
- CLICKOUTS: 网页上导致访问外部资源的点击次数。
- EXTERNAL_CLICKS: 在The News Feed中对Efahrer页面的点击。
- EXTERNAL_IMPRESSIONS: 在The News Feed中查看Efahrer页面但不一定会导致点击的次数。

数据集时间范围

报告期间: 2023年1月1日至2024年3月23日。

数据集用途

目的: 识别吸引用户流量的内容历史中的驱动因素，包括逆向工程某些新闻源提供商的算法。

数据集访问

访问限制: 数据集为专有，本仓库仅展示代码基础，脚本无法运行，未来可能包含演示用的模拟数据。

数据集技术栈

数据处理: 使用Jupyter notebooks和pandas进行数据整理。
机器学习: 使用sklearn和pycaret。
自然语言处理: 使用nltk进行预处理，German Sentiment BERT进行情感分析，RoBERTa base clickbait进行点击诱饵分析，xlm-roberta-large-xnli进行零样本分类。

搜集汇总

数据集介绍

构建方式

EFAHRER.com数据集的构建基于对媒体门户网站内容的深入分析，涵盖了从2023年1月1日至2024年3月23日的详细数据。该数据集通过整合多个数据源，包括页面访问、用户互动、内容发布时间等关键指标，构建了一个多维度的数据框架。具体而言，数据集通过提取页面ID、发布日期、作者信息、视频播放次数、用户点赞与点踩等互动数据，以及外部点击和展示次数等外部流量指标，形成了一个全面的内容性能评估体系。此外，数据集还通过自然语言处理技术，如情感分析和点击诱饵检测，进一步丰富了内容特征。

特点

EFAHRER.com数据集的显著特点在于其多源数据的整合与深度特征提取。数据集不仅包含了基础的页面访问和用户互动数据，还通过外部点击和展示次数等指标，揭示了内容在第三方平台上的表现。此外，数据集引入了自然语言处理技术，如德国情感BERT和点击诱饵分析，使得内容分析更加精细化。这些特征使得该数据集在研究内容传播、用户行为分析以及算法反向工程等领域具有重要价值。

使用方法

使用EFAHRER.com数据集时，用户需首先确保具备完整的数据源，并按照提供的预处理脚本进行数据清洗和整合。数据集的分析可以通过Jupyter Notebook进行，利用pandas进行数据处理，sklearn和pycaret进行机器学习建模。此外，用户还可以利用自然语言处理工具，如nltk进行文本预处理，以及Hugging Face的预训练模型进行情感分析和点击诱饵检测。最终，用户可以将分析结果应用于内容优化、用户行为预测等实际场景。

背景与挑战

背景概述

EFAHRER.com数据集由专注于电动交通和碳减排技术的媒体门户EFAHRER.com创建，旨在通过数据驱动的分析方法，探索其内容对网站流量的影响。该数据集的核心研究问题在于识别影响网站流量的关键因素，特别是通过逆向工程新闻推送算法，以优化内容策略。数据集涵盖了2023年1月1日至2024年3月23日期间的内容历史，包括文章的发布时间、分类、作者、视频播放次数、点击量等多维度指标。这一研究不仅对EFAHRER.com的内容优化具有重要意义，也为类似媒体平台的流量管理提供了宝贵的参考。

当前挑战

EFAHRER.com数据集面临的挑战主要集中在数据收集与处理、算法逆向工程以及模型构建三个方面。首先，数据集涉及多源异构数据，如文章内容、用户互动数据等，如何有效整合与清洗这些数据是一个复杂的过程。其次，逆向工程新闻推送算法需要深入理解复杂的推荐系统逻辑，这对技术实现提出了高要求。最后，构建能够准确预测流量变化的模型，需克服数据稀疏性和特征选择难题，确保模型在实际应用中的稳定性和准确性。

常用场景

经典使用场景

EFAHRER.com数据集的经典使用场景主要集中在分析和优化网络流量驱动因素。通过该数据集，研究者可以深入探索文章发布时间、内容类型、标题吸引力等因素如何影响用户的点击行为和页面加载次数。这种分析不仅有助于理解用户行为模式，还能为内容创作者提供策略性建议，以提高文章的可见性和用户参与度。

衍生相关工作

基于EFAHRER.com数据集，衍生了许多相关的经典工作，特别是在自然语言处理和机器学习领域。例如，研究者利用该数据集进行情感分析和点击诱饵检测，开发了针对德语内容的情感分析模型和点击诱饵分类器。此外，该数据集还激发了对新闻推送算法逆向工程的研究，推动了个性化推荐系统的发展。

数据集最近研究