five

Hotter and Colder

收藏
arXiv2025-02-24 更新2025-02-26 收录
下载链接:
https://repository.clarin.is/repository/xmlui/handle/20.500.12537/352
下载链接
链接失效反馈
官方服务:
资源简介:
Hotter and Colder是由冰岛大学等机构创建的一个数据集,旨在分析冰岛博客评论中的各种在线行为。该数据集基于GPT-4o mini模型对约800,000条博客评论进行自动标注,并经过人工复核,最终包含12,232条独立注释和19,301条标注。数据集涵盖了情感分析、情绪检测、仇恨言论、群体概括等25个任务,为研究内容审查和自动检测有害在线行为提供了一个重要的资源。

Hotter and Colder is a dataset created by institutions including the University of Iceland, designed to analyze various online behaviors in Icelandic blog comments. This dataset automatically annotates approximately 800,000 blog comments using the GPT-4o mini model, followed by manual review, and ultimately contains 12,232 independent annotations and 19,301 labeled entries. The dataset covers 25 tasks including sentiment analysis, emotion detection, hate speech detection, group generalization, and others, providing a crucial resource for research on content moderation and automated detection of harmful online behaviors.
提供机构:
冰岛大学
创建时间:
2025-02-24
搜集汇总
数据集介绍
main_image_url
构建方式
Hotter and Colder 数据集采用了两阶段标注方法,结合了人工智能与人工努力。首先,使用 GPT-4o mini 对大约 80 万条冰岛博客评论进行自动标注,涵盖 25 个任务,包括情感分析、情绪检测、仇恨言论检测和群体概括等。在第一阶段(银标签标注)中,LLM 使用 5 点量表对评论进行标注,以捕捉细微的评估。在第二阶段(金标签标注)中,人工标注员审查选定的评论,主要关注 LLM 评为量表两端的评论。这种设计选择反映了我们优先建立具有清晰、共识的每个现象示例的基础数据集。虽然这种方法可能无法捕捉所有细微的边缘情况,但它服务于几个重要的目的:(1)它能够有效地识别清晰的正例,对于罕见现象而言;(2)它有助于为模型评估建立可靠的基线标注;(3)它符合人类标注员在清晰案例上达成更高共识的发现。我们承认这是一个局限性——未来的工作应该明确地针对边缘情况,以提高模型的鲁棒性。人工标注员一次只对单个任务进行二元(是/否)标注,以减少任务切换疲劳。与 LLM 的 5 点量表相比,人类的简化二元选择反映了我们关注于识别清晰的实例,同时承认中间案例可能需要更细微的未来调查。使用语言模型来识别潜在的金标签标注候选人的方法建立在既定的实践基础上。例如,在编译他们的 GoEmotions 数据集时,Demszky 等人(2020 年)使用基于 BERT 的模型过滤掉包含高水平中性的评论,留下更具情感的评论供人工标注。为了自动化初始标注过程,我们为 AI 模型创建了一个提示,指示模型在冰岛语5中执行所有 25 个标注任务。提示包括一个 JSON 模式,指示模型如何标注给定评论。提供的信息还包含了之前的评论和评论所在的博客文章的开头。我们使用严格的结构化输出,以确保 GPT-4o mini 模型始终为每个任务对每条评论进行标注,并且只能输出与李克特量表6对齐的值。为了评估冰岛博客评论,我们开发了一个全面的标注方案,涵盖了在线话语的各种方面。人工标注员获得了冰岛语的详细说明,强调他们的个人判断至关重要,并且没有绝对正确或错误的答案。对于大多数任务,标注员被要求对评论是否具有特定特征进行二元决策(是/否)。情感分析的例外情况使用了三种分类。标注员可以查看之前的评论和原始博客文章以获取上下文,尽管一些图片已经不再可用。他们还被提供跳过信息量最小的评论或非冰岛语的评论的标注选项。为了评估冰岛博客评论,我们开发了一个全面的标注方案,涵盖了在线话语的各种方面。人工标注员获得了冰岛语的详细说明,强调他们的个人判断至关重要,并且没有绝对正确或错误的答案。对于大多数任务,标注员被要求对评论是否具有特定特征进行二元决策(是/否)。情感分析的例外情况使用了三种分类。标注员可以查看之前的评论和原始博客文章以获取上下文,尽管一些图片已经不再可用。他们还被提供跳过信息量最小的评论或非冰岛语的评论的标注选项。
特点
Hotter and Colder 数据集具有以下特点:1. 数据集涵盖了 25 个任务,包括情感、情绪、仇恨言论和群体概括等方面;2. 数据集采用了两阶段标注方法,结合了人工智能与人工努力,确保了数据集的质量和准确性;3. 数据集提供了丰富的上下文信息,包括作者的初始字母、推断的性别和时间戳等;4. 数据集支持多任务学习,允许模型同时处理多个任务,从而提高整体性能。
使用方法
Hotter and Colder 数据集的使用方法如下:1. 下载数据集:用户可以从数据集的官方网站或相关链接下载数据集。2. 数据预处理:用户需要对数据集进行预处理,包括清洗数据、分割数据集、提取特征等。3. 模型训练:用户可以使用数据集训练各种模型,包括情感分析模型、情绪检测模型、仇恨言论检测模型等。4. 模型评估:用户可以使用数据集评估模型的性能,包括准确率、召回率、F1 值等指标。5. 应用开发:用户可以使用训练好的模型开发各种应用,例如内容审核工具、在线社区管理等。
背景与挑战
背景概述
在线交流平台的迅速发展,导致有害行为增加,从而增加了内容审查的需求。Hotter and Colder数据集旨在分析冰岛博客评论中的各种在线行为。该数据集由冰岛大学的研究人员创建,基于GPT-4o mini模型,对约80万个评论进行了标注,涉及25个任务,包括情感分析、情绪检测、仇恨言论和群体概括等。通过利用众包工人对自动标注的评论进行人工修订,确保了数据集的质量和准确性。Hotter and Colder为冰岛语内容审查和自动检测有害在线行为的研究提供了重要资源。
当前挑战
Hotter and Colder数据集面临的挑战主要包括:1)冰岛语情感分析领域存在的局限性,如类别不平衡和标注者一致性低;2)构建过程中遇到的挑战,如如何平衡利用AI高效识别潜在案例和利用人工验证确保数据集准确性的问题;3)如何处理文化差异和伦理标准对模型性能的影响;4)如何更有效地利用计算资源,减少碳足迹。
常用场景
经典使用场景
Hotter and Colder 数据集主要应用于对冰岛博客评论中的各种在线行为进行分析,包括情感分析、情绪检测、仇恨言论和群体概括等。该数据集通过 GPT-4o mini 对大约 80 万条评论进行标注,并采用二阶段标注方法,即先进行自动标注,再由人工进行验证,以确保数据集的质量和准确性。该数据集为冰岛语内容审查和有害在线行为的自动检测提供了重要的资源。
解决学术问题
Hotter and Colder 数据集解决了冰岛语情感分析中的类别不平衡和标注者之间低一致性等问题。该数据集采用了新的方法,首先使用 GPT-4o mini 对评论进行自动标注,然后由人工进行验证,以确保数据集的质量和准确性。这种二阶段标注方法有助于提高标注者的共识,并能够有效地识别稀有但重要的案例,例如仇恨言论评论。
衍生相关工作
Hotter and Colder 数据集的发布促进了冰岛语内容审查和有害在线行为自动检测的研究。该数据集的二阶段标注方法为其他低资源语言的数据集创建提供了借鉴。此外,该数据集的研究结果也为多任务学习框架在冰岛语情感分析中的应用提供了启示,例如将讽刺检测与情感分析相结合,以提高检测有害和有毒言论的准确性和细微差别。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作