Provenance Network Analytics Datasets

github2020-10-20 更新2024-05-31 收录

下载链接：

https://github.com/trungdong/datasets-provanalytics-dmkd

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库提供的数据集用于Provenance Network Analytics论文中，包含三个不同应用的数据集，用于分析数据来源，评估数据质量和可信度，并通过机器学习技术构建预测模型。

This repository provides datasets used in the Provenance Network Analytics paper, encompassing three distinct application datasets. These datasets are utilized for analyzing data provenance, assessing data quality and credibility, and constructing predictive models through machine learning techniques.

创建时间：

2017-07-31

原始信息汇总

数据集概述

本数据集用于支持Provenance Network Analytics论文及其分析代码。该分析方法通过分析数据来源（使用W3C的PROV数据模型表示），提出了一系列网络度量（PNM），并应用机器学习技术构建预测模型，以评估数据的关键属性，如质量和可信度。

数据集内容

ProvStore数据集
- 文件：provstore/data.csv
- 内容：ProvStore上传的来源文档的PNM及其对应的所有者（匿名为u_1, u_2等）。
CollabMap数据集
- 文件：
  - collabmap/trust_values.csv：每个数据实体的信任值。
  - collabmap/depgraphs.csv：每个数据实体的来源依赖图的PNM。
  - collabmap/ancestor-graphs.csv：每个数据实体的历史来源图的PNM。
Radiation Response Game (RRG)数据集
- 文件：
  - rrg/depgraphs-k.csv（例如rrg/depgraphs-5.csv）：RRG聊天消息的第k级来源依赖图的PNM。
  - rrg/depgraphs.csv：RRG聊天消息的完整依赖图的PNM。
  - rrg/ancestor-graphs.csv：聊天消息的历史来源图的PNM。

分析代码

提供的IPython笔记本包括：

应用1：识别来源文档的所有者。
应用2：评估CollabMap中众包数据的可信度。
应用3：从RRG聊天消息中识别指令。

此外，还包括额外的实验材料和交叉验证代码，用于复现实验和记录未在论文中包含的额外实验。

搜集汇总

数据集介绍

构建方式

Provenance Network Analytics Datasets的构建基于三个不同应用领域的溯源数据，分别是ProvStore、CollabMap和Radiation Response Game。每个数据集包含多个溯源图及其标签，但由于隐私问题，数据集仅提供了从这些图中计算出的溯源网络指标（PNM）。这些指标通过世界万维网联盟的PROV数据模型表示，并结合机器学习技术构建预测模型，用于推断数据的质量或可信度等关键属性。

特点

该数据集的特点在于其专注于溯源网络分析，通过计算溯源图的网络指标（PNM）来推断数据的属性。数据集涵盖了多个应用场景，包括溯源文档的所有者识别、众包数据的可信度评估以及聊天消息中的指令识别。每个数据集都提供了详细的网络指标，便于研究人员进行数据分析和模型构建。此外，数据集还提供了IPython Notebooks，详细展示了实验步骤和结果，便于复现和扩展研究。

使用方法

使用该数据集时，用户可以通过提供的IPython Notebooks复现论文中的实验。首先，用户需要安装所需的Python包，具体依赖项列在`requirements.txt`文件中。安装完成后，用户可以直接运行Notebooks中的代码，查看实验步骤和结果。数据集的使用方法灵活，用户可以根据需求调整代码，进行新的实验或验证已有结果。此外，数据集还提供了额外的实验材料，帮助用户深入理解溯源网络分析的应用场景和效果。

背景与挑战

背景概述

Provenance Network Analytics Datasets 是由研究人员开发的一套用于支持数据溯源网络分析的数据集，旨在通过分析数据的溯源信息来推断数据的质量或可信度等属性。该数据集基于W3C的PROV数据模型，提出了一系列网络度量指标（PNM），并结合机器学习技术构建预测模型。该数据集的应用场景包括识别溯源文档的所有者、评估众包数据的可信度以及从聊天消息中识别指令等。该数据集的研究成果展示了溯源网络分析在多个领域中的广泛应用潜力，为数据分析和数据质量管理提供了新的工具和方法。

当前挑战

Provenance Network Analytics Datasets 面临的挑战主要包括两个方面。首先，在领域问题方面，尽管该数据集展示了溯源网络分析在多个应用场景中的有效性，但其依赖于溯源数据的完整性和准确性，而实际应用中溯源数据往往存在缺失或不一致的问题，这可能导致模型预测的偏差。其次，在数据集构建过程中，由于涉及隐私问题，研究人员无法直接提供原始溯源图，而是提供了基于这些图计算出的网络度量指标，这在一定程度上限制了数据的透明性和可解释性。此外，不同应用场景下的数据结构和特征差异较大，如何设计通用的网络度量指标并确保其在不同领域中的适用性，也是一个重要的挑战。

常用场景

经典使用场景

Provenance Network Analytics Datasets 在数据溯源分析领域具有广泛的应用，尤其是在数据质量和可信度评估方面。该数据集通过分析数据的溯源网络，帮助研究人员推断数据的属性，如数据的来源、生成过程及其可信度。经典的使用场景包括通过溯源网络指标（PNM）构建预测模型，识别数据的所有者、评估众包数据的可信度以及从聊天记录中提取指令。这些应用展示了该数据集在跨领域数据溯源分析中的通用性和有效性。

实际应用

在实际应用中，Provenance Network Analytics Datasets 被广泛用于评估数据的可信度和质量。例如，在众包数据平台 CollabMap 中，该数据集通过分析数据的溯源网络，帮助评估数据的可信度，从而确保数据的可靠性。此外，在替代现实游戏 Radiation Response Game 中，该数据集被用于从聊天记录中提取指令，展示了其在复杂场景中的应用潜力。这些实际应用表明，该数据集在数据溯源分析中具有重要的实用价值。

衍生相关工作

Provenance Network Analytics Datasets 衍生了许多相关的研究工作，特别是在数据溯源分析和机器学习领域。基于该数据集的研究成果，许多学者进一步探索了溯源网络指标（PNM）在不同领域的应用，如数据质量管理、众包数据评估以及复杂场景中的指令提取。此外，该数据集还推动了机器学习算法在溯源数据分析中的应用，促进了数据溯源分析与其他学科的交叉融合，为该领域的发展提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集