CrowdLabelwithTextContent

github2024-09-24 更新2024-09-26 收录

下载链接：

https://github.com/garfieldpigljy/CrowdLabelwithTextContent

下载链接

链接失效反馈

官方服务：

资源简介：

包含带有文本内容的众包标签实例的数据集。这些数据集用于比较众包和大型语言模型通过标签聚合的注释质量。

Datasets containing crowdsourced label instances with text content. These datasets are used to compare the annotation quality of label aggregation results derived from both crowdsourcing and large language models (LLMs).

创建时间：

2024-09-24

原始信息汇总

CrowdLabelwithTextContent 数据集概述

数据集描述

CrowdLabelwithTextContent 数据集包含带有文本内容的众包标签实例。
数据集用于以下论文：
- Jiyi Li, "A Comparative Study on Annotation Quality of Crowdsourcing and LLM via Label Aggregation", Proceedings of the 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2024), pp. 6525-6529, Apr. 2024.
- Jiyi Li, Yukino Baba, Hisashi Kashima, "Hyper Questions: Unsupervised Targeting of a Few Experts in Crowdsourcing", the 26th ACM International Conference on Information and Knowledge Management (CIKM 2017), pp.1069-1078, Nov. 2017.

问题描述

Chinese (CHI): 中文词汇的含义。
English (ENG): 与给定词对最相似的词对。
Information Technology (ITM, ITMANAGE): 信息技术基础知识。
Medicine (MED): 药物疗效和副作用。
Pokemon (POK): 日语中宝可梦的名称与英语名称对应。
Science (SCI): 化学和物理的中等知识。

引用

如果使用此数据集，请引用以下论文：

@inproceedings{CrowdLLMLabel, author={Li, Jiyi}, booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={A Comparative Study on Annotation Quality of Crowdsourcing and LLm Via Label Aggregation}, year={2024}, volume={}, number={}, pages={6525-6529}, keywords={Crowdsourcing;Annotations;Quality control;Benchmark testing;Signal processing;Chatbots;Reliability;Crowdsourcing;Label Aggregation;Large Language Model}, doi={10.1109/ICASSP48485.2024.10447803} }

@inproceedings{HyperQuestion, author = {Li, Jiyi and Baba, Yukino and Kashima, Hisashi}, title = {Hyper Questions: Unsupervised Targeting of a Few Experts in Crowdsourcing}, year = {2017}, isbn = {9781450349185}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3132847.3132971}, doi = {10.1145/3132847.3132971}, booktitle = {Proceedings of the 2017 ACM on Conference on Information and Knowledge Management}, pages = {1069–1078}, numpages = {10}, keywords = {crowdsourcing, answer aggregation, hyper question, heterogeneous-answer multiple-choice questions}, location = {Singapore, Singapore}, series = {CIKM 17} }

许可证

Creative Commons CC BY 4.0

搜集汇总

数据集介绍

构建方式

CrowdLabelwithTextContent数据集的构建基于大规模语言模型（LLM）与众包标注的结合。具体而言，该数据集通过LLM生成标签，并结合众包标注的质量控制，形成了一个包含多种领域文本内容的标注集合。这一构建方式不仅确保了标签的多样性和丰富性，还通过对比研究验证了众包与LLM在标注质量上的差异。

特点

CrowdLabelwithTextContent数据集的显著特点在于其跨领域的文本内容覆盖。该数据集包含了中文词汇意义、英语词汇相似性、信息技术基础知识、医学疗效与副作用、宝可梦名称对应关系以及化学与物理的中等知识等多个领域的文本实例。这种多样性使得该数据集在多领域文本标注研究中具有广泛的应用价值。

使用方法

使用CrowdLabelwithTextContent数据集时，研究者可以利用其丰富的文本内容进行多领域的标注质量评估与模型训练。具体操作上，用户需先下载数据集，并根据提供的文档进行数据预处理。随后，可以结合LLM与众包标注的对比分析，进行标签聚合方法的研究与优化。此外，数据集的引用需遵循提供的文献格式，确保学术研究的规范性。

背景与挑战

背景概述

CrowdLabelwithTextContent数据集由Jiyi Li等研究人员创建，旨在通过结合文本内容与人群标签，探索大规模语言模型（LLM）与传统众包方法在标签生成与聚合中的应用。该数据集的核心研究问题在于评估和比较LLM与众包在标注质量上的差异，特别是在标签聚合过程中的表现。相关研究成果已发表于2024年的IEEE国际声学、语音与信号处理会议（ICASSP 2024），以及2017年的ACM国际信息与知识管理会议（CIKM 2017）。这些研究不仅推动了众包与LLM在标注任务中的应用，还为相关领域的进一步研究提供了宝贵的数据资源。

当前挑战

CrowdLabelwithTextContent数据集在构建过程中面临多项挑战。首先，如何有效整合文本内容与人群标签，以确保标注的准确性与一致性，是一个复杂的问题。其次，数据集涉及多个领域的知识，如中文词汇、信息技术、医学等，这要求标注者具备广泛的专业知识，增加了标注的难度。此外，数据集的构建还涉及对LLM生成标签的质量评估，这需要开发新的评估方法和工具。最后，数据集的多样性和复杂性也带来了数据管理和处理的挑战，特别是在数据清洗和预处理阶段。

常用场景

经典使用场景

CrowdLabelwithTextContent数据集的经典使用场景主要集中在通过大规模语言模型（LLM）生成标签的比较研究中。该数据集通过结合文本内容与人群标注，为研究者提供了一个独特的平台，用以评估和比较人群标注与LLM生成标签的质量。例如，在2024年的IEEE国际声学、语音与信号处理会议上，Jiyi Li等人利用此数据集进行了关于标注质量的对比研究，展示了LLM在标签生成中的潜力与局限。

实际应用

在实际应用中，CrowdLabelwithTextContent数据集被广泛用于开发和优化标注聚合方法。例如，在信息技术和医学领域，该数据集帮助研究人员通过结合人群标注和LLM生成的标签，提高了数据标注的准确性和效率。此外，该数据集还被用于训练和验证各种自然语言处理模型，特别是在需要高质量标注数据的场景中，如机器翻译和文本分类，显著提升了这些应用的性能。

衍生相关工作

CrowdLabelwithTextContent数据集的发布催生了一系列相关研究工作。例如，Jiyi Li等人在2017年的ACM国际信息与知识管理会议上提出的“超问题”方法，通过使用该数据集的人群标注数据，实现了在众包中无监督地定位少数专家的目标。此外，该数据集还启发了关于标注聚合和质量控制的新方法研究，推动了众包和自然语言处理领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集