five

bank_complaints, ebay_items_attributes, ebay_items_weight, hotel_review_sentiment, ner, synonyms

收藏
github2023-07-12 更新2024-05-31 收录
下载链接:
https://github.com/heolin123/funcrowd-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自消费者投诉数据库的数据,涉及消费者金融产品和服务的投诉,并已发送给公司进行回应。

This dataset comprises data sourced from a consumer complaint database, encompassing grievances related to consumer financial products and services, which have been forwarded to companies for response.
创建时间:
2020-08-09
原始信息汇总

Funcrowds Datasets

数据集概述

Funcrowds Dataset 是一个包含6个数据集的集合,这些数据集是在研究反馈信息对众包标注过程中标注质量的影响时创建的。每个数据集包含不同类型的数据,基于先前标注的数据准备,因此包含用户标注以及原始数据集的参考标注。此外,数据集还包含有关在标注期间向特定用户显示的反馈信息。

数据集列表

1. bank_complaints

2. ebay_items_attributes

3. ebay_items_weight

4. hotel_review_sentiment

5. ner

6. synonyms

  • 目的: 检查用户是否能够确定两个选定词是否为同义词。数据集包含每对句子中各有一个词被标记的句子对。
  • 详细信息: synonyms-summary.md
  • 测试结果: Analyse dataset.ipynb

数据集结构

每个数据集包含三个文件:

  • <name>-dataset.csv - 数据文件
  • <name>-metadata.json - 包含数据集JSON架构和一些额外元数据信息的文件
  • <name>-summary.md - 关于数据集、标注任务、反馈信息和许可证的详细信息文件
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于众包标注过程中的反馈信息对标注质量影响的研究。研究团队通过Funcrowd引擎和Amazon Mechanical Turk平台,设计了多种标注任务,并在标注过程中向用户提供不同类型的反馈信息。数据集包含了用户标注和原始数据集中的参考标注,同时记录了在标注过程中向用户展示的反馈信息。
特点
该数据集涵盖了多个领域的数据,包括银行投诉、电子商务产品属性、产品重量、酒店评论情感、命名实体识别以及同义词判断。每个数据集均包含用户标注和参考标注,且详细记录了标注过程中的反馈信息。这种设计使得数据集不仅适用于标注质量的研究,还可用于跨领域的自然语言处理和机器学习任务。
使用方法
使用该数据集时,用户可通过提供的CSV文件获取数据,并通过JSON文件了解数据集的元数据信息。数据集的分析可通过Jupyter Notebook进行,用户需先安装所需的Python包,随后运行相应的分析代码。每个数据集的分析结果包括基本统计信息以及反馈信息对标注质量影响的置信区间分析。
背景与挑战
背景概述
Funcrowd数据集集合由六个独立的数据集组成,旨在研究反馈信息对众包标注过程中数据质量的影响。该研究由Funcrowd团队主导,基于先前标注的数据集进行构建,涵盖了用户标注和原始数据集中的参考标注。研究的主要目标是验证在众包标注任务中提供反馈信息是否能够提升数据质量,并探讨反馈信息的质量对标注结果的影响。研究采用了Funcrowd引擎和Amazon Mechanical Turk平台进行实验,涵盖了多种标注任务类型,如银行投诉、eBay商品属性、酒店评论情感分析、命名实体识别和同义词判断等。这一研究对众包标注领域的数据质量控制提供了重要的理论和实践参考。
当前挑战
Funcrowd数据集集合在构建和应用过程中面临多重挑战。首先,研究需要验证反馈信息对数据质量的影响,这涉及到设计复杂的实验流程和数据分析方法,以确保结果的可靠性和普适性。其次,由于数据集涵盖了多种任务类型,如何在不同任务中统一反馈信息的呈现方式并评估其效果成为一大难题。此外,众包标注过程中用户的主观性和标注标准的多样性可能导致数据质量的波动,这对反馈信息的有效性提出了更高的要求。最后,数据集的构建依赖于原始标注数据,如何确保原始数据的准确性和完整性也是研究中的关键挑战。这些挑战不仅影响了数据集的构建过程,也对后续的应用和分析提出了更高的要求。
常用场景
经典使用场景
在自然语言处理(NLP)领域,`ner`数据集常用于训练和评估命名实体识别(NER)模型。该数据集包含从Groningen Meaning Bank(GMB)中提取的已标注句子,涵盖了多种命名实体类别,如人名、地名、组织名等。研究人员通过该数据集能够有效提升模型在复杂文本中识别实体的能力,尤其在多语言和跨领域场景中表现突出。
衍生相关工作
基于`ner`数据集,许多经典研究工作得以展开。例如,研究人员开发了基于深度学习的NER模型,如BiLSTM-CRF和BERT-based模型,显著提升了实体识别的准确率。此外,该数据集还被用于研究多任务学习框架,结合实体识别与其他NLP任务(如关系抽取和事件检测),进一步推动了NLP技术的发展。
数据集最近研究
最新研究方向
在众包标注领域,反馈信息对标注质量的影响一直是研究的热点。Funcrowd数据集通过提供不同类型的反馈信息,探索了其在提升数据标注质量方面的潜力。研究表明,反馈信息的引入能够显著提高标注的准确性和一致性,尤其是在复杂任务如命名实体识别(NER)和情感分析中。此外,研究还发现,即使反馈信息的质量较低,仍能对标注结果产生积极影响。这一发现为众包平台的设计和优化提供了新的思路,特别是在如何有效利用反馈机制以提高数据质量方面。随着人工智能和机器学习技术的快速发展,Funcrowd数据集的研究成果有望在自然语言处理、电子商务数据分析等领域得到广泛应用,进一步推动相关技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作