bank_complaints, ebay_items_attributes, ebay_items_weight, hotel_review_sentiment, ner, synonyms

github2023-07-12 更新2024-05-31 收录

下载链接：

https://github.com/heolin123/funcrowd-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自消费者投诉数据库的数据，涉及消费者金融产品和服务的投诉，并已发送给公司进行回应。

This dataset comprises data sourced from a consumer complaint database, encompassing grievances related to consumer financial products and services, which have been forwarded to companies for response.

创建时间：

2020-08-09

原始信息汇总

Funcrowds Datasets

数据集概述

Funcrowds Dataset 是一个包含6个数据集的集合，这些数据集是在研究反馈信息对众包标注过程中标注质量的影响时创建的。每个数据集包含不同类型的数据，基于先前标注的数据准备，因此包含用户标注以及原始数据集的参考标注。此外，数据集还包含有关在标注期间向特定用户显示的反馈信息。

数据集列表

1. bank_complaints

来源: 消费者投诉数据库，包含关于消费者金融产品和服务的投诉数据，这些投诉已发送给公司以获得回应。
详细信息: bank_complaints-summary.md
测试结果: Analyse dataset.ipynb

2. ebay_items_attributes

内容: 包含在线电商平台eBay上产品的属性（商品详情）信息。
详细信息: ebay_items_attributes-summary.md
测试结果: Analyse dataset.ipynb

3. ebay_items_weight

内容: 包含在线电商平台eBay上产品的重量信息。
详细信息: ebay_items_weight-summary.md
测试结果: Analyse dataset.ipynb

4. hotel_review_sentiment

内容: 包含酒店评论信息及相应的评分值，数据提取自Datafiniti的商业数据库。
详细信息: hotel_review_sentiment-summary.md
测试结果: Analyse dataset.ipynb

5. ner

内容: 包含带有标记命名实体的标注句子，数据来自GMB（Groningen Meaning Bank）。
详细信息: ner-summary.md
测试结果: Analyse dataset.ipynb

6. synonyms

目的: 检查用户是否能够确定两个选定词是否为同义词。数据集包含每对句子中各有一个词被标记的句子对。
详细信息: synonyms-summary.md
测试结果: Analyse dataset.ipynb

数据集结构

每个数据集包含三个文件：

<name>-dataset.csv - 数据文件
<name>-metadata.json - 包含数据集JSON架构和一些额外元数据信息的文件
<name>-summary.md - 关于数据集、标注任务、反馈信息和许可证的详细信息文件

搜集汇总

数据集介绍

构建方式

该数据集的构建基于众包标注过程中的反馈信息对标注质量影响的研究。研究团队通过Funcrowd引擎和Amazon Mechanical Turk平台，设计了多种标注任务，并在标注过程中向用户提供不同类型的反馈信息。数据集包含了用户标注和原始数据集中的参考标注，同时记录了在标注过程中向用户展示的反馈信息。

特点

该数据集涵盖了多个领域的数据，包括银行投诉、电子商务产品属性、产品重量、酒店评论情感、命名实体识别以及同义词判断。每个数据集均包含用户标注和参考标注，且详细记录了标注过程中的反馈信息。这种设计使得数据集不仅适用于标注质量的研究，还可用于跨领域的自然语言处理和机器学习任务。

使用方法

使用该数据集时，用户可通过提供的CSV文件获取数据，并通过JSON文件了解数据集的元数据信息。数据集的分析可通过Jupyter Notebook进行，用户需先安装所需的Python包，随后运行相应的分析代码。每个数据集的分析结果包括基本统计信息以及反馈信息对标注质量影响的置信区间分析。

背景与挑战

背景概述

Funcrowd数据集集合由六个独立的数据集组成，旨在研究反馈信息对众包标注过程中数据质量的影响。该研究由Funcrowd团队主导，基于先前标注的数据集进行构建，涵盖了用户标注和原始数据集中的参考标注。研究的主要目标是验证在众包标注任务中提供反馈信息是否能够提升数据质量，并探讨反馈信息的质量对标注结果的影响。研究采用了Funcrowd引擎和Amazon Mechanical Turk平台进行实验，涵盖了多种标注任务类型，如银行投诉、eBay商品属性、酒店评论情感分析、命名实体识别和同义词判断等。这一研究对众包标注领域的数据质量控制提供了重要的理论和实践参考。

当前挑战

Funcrowd数据集集合在构建和应用过程中面临多重挑战。首先，研究需要验证反馈信息对数据质量的影响，这涉及到设计复杂的实验流程和数据分析方法，以确保结果的可靠性和普适性。其次，由于数据集涵盖了多种任务类型，如何在不同任务中统一反馈信息的呈现方式并评估其效果成为一大难题。此外，众包标注过程中用户的主观性和标注标准的多样性可能导致数据质量的波动，这对反馈信息的有效性提出了更高的要求。最后，数据集的构建依赖于原始标注数据，如何确保原始数据的准确性和完整性也是研究中的关键挑战。这些挑战不仅影响了数据集的构建过程，也对后续的应用和分析提出了更高的要求。

常用场景

经典使用场景

在自然语言处理（NLP）领域，`ner`数据集常用于训练和评估命名实体识别（NER）模型。该数据集包含从Groningen Meaning Bank（GMB）中提取的已标注句子，涵盖了多种命名实体类别，如人名、地名、组织名等。研究人员通过该数据集能够有效提升模型在复杂文本中识别实体的能力，尤其在多语言和跨领域场景中表现突出。

衍生相关工作

基于`ner`数据集，许多经典研究工作得以展开。例如，研究人员开发了基于深度学习的NER模型，如BiLSTM-CRF和BERT-based模型，显著提升了实体识别的准确率。此外，该数据集还被用于研究多任务学习框架，结合实体识别与其他NLP任务（如关系抽取和事件检测），进一步推动了NLP技术的发展。

数据集最近研究