five

Anno-lexical

收藏
arXiv2024-11-17 更新2024-11-20 收录
下载链接:
https://anonymous.4open.science/r/llm-annotations-annomatic-0F23/README.md
下载链接
链接失效反馈
官方服务:
资源简介:
Anno-lexical数据集由日本东京国立信息学研究所和德国哥廷根大学联合创建,是一个用于媒体偏见分类的大型数据集,包含48330条合成标注的句子。数据集通过使用大型语言模型(LLMs)自动化标注过程,减少了人工标注的成本和时间,同时保持了数据的高质量。数据集的创建过程包括选择LLMs、使用少样本上下文学习进行标注,并通过多数投票确定最终标签。该数据集主要应用于媒体偏见检测领域,旨在解决传统标注方法成本高、质量不稳定的问题,提升媒体偏见分类器的性能。

The Anno-lexical dataset was co-created by the National Institute of Informatics in Tokyo, Japan, and the University of Göttingen in Germany. It is a large-scale dataset for media bias classification, containing 48,330 synthetically annotated sentences. The dataset automates the annotation process using Large Language Models (LLMs), which reduces the cost and time required for manual annotation while maintaining high data quality. The development process of the dataset includes selecting appropriate LLMs, conducting annotation via few-shot in-context learning, and determining the final labels through majority voting. This dataset is primarily applied in the field of media bias detection, aiming to solve the problems of high cost and unstable quality of traditional annotation methods, and improve the performance of media bias classifiers.
提供机构:
日本东京国立信息学研究所,德国哥廷根大学
创建时间:
2024-11-17
搜集汇总
数据集介绍
main_image_url
构建方式
Anno-lexical数据集的构建采用了先进的语言模型(LLMs)进行合成标注,以降低高质量数据集创建的成本。研究团队通过三阶段的管道分析,选择了三个LLMs,并使用少样本上下文学习提示(few-shot in-context learning prompt)对大规模训练数据集进行标注。最终,通过多数投票机制确定每个目标句子的标签,形成了包含48,330个合成标注示例的数据集。
使用方法
Anno-lexical数据集主要用于媒体偏见分类任务的训练和评估。用户可以通过下载数据集并使用提供的Python包Annomatic来简化标注流程。数据集已经预先分割为训练集、开发集和测试集,用户可以直接使用这些分割进行模型训练和验证。此外,数据集还附带了一个在合成标注数据上微调的分类器,用户可以将其作为基准模型进行比较或进一步优化。
背景与挑战
背景概述
在媒体偏见检测领域,高质量数据集的创建一直面临着高成本和复杂性的挑战。传统上,这一过程依赖于专家或众包工作者的手动标注,这不仅耗时且成本高昂。近年来,大型语言模型(LLMs)的出现为自动化标注提供了新的可能性,显著降低了数据集创建的成本并保持了数据质量。Anno-lexical数据集正是在这一背景下诞生的,由Tomáš Horych等人于2024年创建,旨在通过LLMs生成的大规模合成标注数据,解决媒体偏见分类任务中的数据稀缺问题。该数据集包含超过48,000个合成标注的示例,其核心研究问题在于验证LLMs是否能够提供足够高质量的标注数据,以训练出有效的媒体偏见分类器。Anno-lexical的推出不仅显著降低了数据集创建的成本,还为媒体偏见检测领域的研究提供了新的工具和资源。
当前挑战
尽管Anno-lexical数据集在降低成本和提高数据质量方面取得了显著进展,但其构建过程中仍面临若干挑战。首先,LLMs在标注复杂任务如媒体偏见检测时,可能存在认知偏差和经验限制,导致标注不一致性。其次,众包标注的质量下降,尤其是来自主要平台如Amazon MTurk的标注,已成为一个普遍问题。此外,LLMs的标注质量在复杂下游任务中的可行性仍需进一步探索。最后,数据集的多样性问题也是一大挑战,因为媒体偏见的多样表现形式需要更加全面和平衡的数据集来捕捉。这些挑战不仅影响了数据集的质量,也限制了基于该数据集训练的分类器的性能和鲁棒性。
常用场景
经典使用场景
Anno-lexical数据集在媒体偏见检测领域中被广泛应用于训练和评估媒体偏见分类器。其经典使用场景包括利用大规模合成标注数据进行模型微调,以提高分类器在识别新闻文本中的偏见词汇和表达方面的准确性。通过对比基于人工标注数据训练的模型,Anno-lexical展示了其在降低标注成本的同时,仍能保持甚至超越传统方法的性能。
解决学术问题
Anno-lexical数据集解决了媒体偏见检测领域中高质量标注数据稀缺的问题。传统方法依赖于专家标注,成本高且规模有限,导致模型训练数据不足,影响分类器性能。Anno-lexical通过利用大型语言模型(LLMs)进行自动化标注,显著降低了数据集创建的成本和时间,同时保持了数据质量,为媒体偏见分类器的开发提供了新的可能性。
实际应用
Anno-lexical数据集在实际应用中主要用于新闻媒体内容的自动偏见检测。通过训练基于该数据集的分类器,新闻机构和社交媒体平台可以实时监控和分析新闻报道中的偏见表达,从而提高内容审核的效率和公正性。此外,该数据集还可用于学术研究和教育培训,帮助研究人员和学生更好地理解和应对媒体偏见问题。
数据集最近研究
最新研究方向
在媒体偏见检测领域,Anno-lexical数据集的最新研究方向聚焦于利用大型语言模型(LLMs)进行数据标注的自动化。这一研究旨在降低高质量数据集创建的成本,同时保持数据质量。通过使用LLMs进行合成标注,研究团队创建了首个大规模媒体偏见分类数据集,包含超过48,000个合成标注的示例。该数据集的分类器在Matthew’s Correlation Coefficient(MCC)上超越了所有标注LLMs,并在两个媒体偏见基准数据集(BABE和BASIL)上表现接近或优于基于人类标注数据训练的模型。这一研究不仅显著降低了数据集创建的成本,还揭示了当前方法的一些局限性和权衡,为未来的研究提供了新的方向。
相关研究论文
  • 1
    The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection日本东京国立信息学研究所,德国哥廷根大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作