five

dravidianlangtech/hope_edi

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/dravidianlangtech/hope_edi
下载链接
链接失效反馈
官方服务:
资源简介:
HopeEDI数据集是一个用于平等、多样性和包容性的希望言论检测数据集,包含从社交媒体平台YouTube收集的用户生成评论,分别有28,451条英语评论、20,198条泰米尔语评论和10,705条马拉雅拉姆语评论,这些评论被手动标注为包含希望言论或不包含希望言论。据我们所知,这是第一个在多语言环境中为平等、多样性和包容性标注希望言论的研究。

The HopeEDI dataset is a hope speech detection dataset designed for equality, diversity and inclusion (EDI). It comprises user-generated comments collected from the social media platform YouTube, with 28,451 English comments, 20,198 Tamil comments, and 10,705 Malayalam comments respectively. These comments have been manually annotated as either containing hope speech or not. To the best of our knowledge, this is the first study focused on annotating hope speech for equality, diversity and inclusion in a multilingual setting.
提供机构:
dravidianlangtech
原始信息汇总

数据集概述

数据集基本信息

  • 名称: HopeEDI
  • 语言: 英语、马拉雅拉姆语、泰米尔语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语和多语
  • 大小类别: 10K<n<100K, 1K<n<10K
  • 源数据: 原始数据
  • 任务类别: 文本分类
  • 标签: hope-speech-classification

数据集配置

  • 英语:

    • 特征:
      • text: 字符串
      • label: 类别标签,可能值为 "Hope_speech", "Non_hope_speech", "not-English"
    • 分割:
      • train: 22762个样本, 2306656字节
      • validation: 2843个样本, 288663字节
    • 下载大小: 2739901字节
    • 数据集大小: 2595319字节
  • 泰米尔语:

    • 特征:
      • text: 字符串
      • label: 类别标签,可能值为 "Hope_speech", "Non_hope_speech", "not-Tamil"
    • 分割:
      • train: 16160个样本, 1531013字节
      • validation: 2018个样本, 197378字节
    • 下载大小: 1795767字节
    • 数据集大小: 1728391字节
  • 马拉雅拉姆语:

    • 特征:
      • text: 字符串
      • label: 类别标签,可能值为 "Hope_speech", "Non_hope_speech", "not-malayalam"
    • 分割:
      • train: 8564个样本, 1492031字节
      • validation: 1070个样本, 180713字节
    • 下载大小: 1721534字节
    • 数据集大小: 1672744字节

数据集示例

  • 英语:

    • text: "all lives matter .without that we never have peace so to me forever all lives matter."
    • label: "Hope_speech"
  • 泰米尔语:

    • text: "Idha solla ivalo naala"
    • label: "Non_hope_speech"
  • 马拉雅拉姆语:

    • text: "ഇത്രെയും കഷ്ടപ്പെട്ട് വളർത്തിയ ആ അമ്മയുടെ മുഖം കണ്ടപ്പോൾ കണ്ണ് നിറഞ്ഞു പോയി"
    • label: "Hope_speech"

数据集创建

  • 标注创建者: 专家生成
  • 语言创建者: 众包
  • 标注过程: 使用Google表单收集标注,每个表单最多包含100条评论,每页最多10条评论。标注者包括来自澳大利亚、爱尔兰、英国和美国的英语标注者,以及来自印度泰米尔纳德邦和斯里兰卡的泰米尔语标注者。

数据集使用注意事项

  • 个人和敏感信息: 数据集包含来自社交媒体的高度敏感信息,已采取措施最小化个人身份信息的风险,但保留了与种族、性别、性取向、民族起源和哲学信仰相关的信息。

附加信息

  • 许可证信息: Creative Commons Attribution 4.0 International Licence

  • 引用信息:

    @inproceedings{chakravarthi-2020-hopeedi, title = "{H}ope{EDI}: A Multilingual Hope Speech Detection Dataset for Equality, Diversity, and Inclusion", author = "Chakravarthi, Bharathi Raja", booktitle = "Proceedings of the Third Workshop on Computational Modeling of Peoples Opinions, Personality, and Emotions in Social Media", month = dec, year = "2020", address = "Barcelona, Spain (Online)", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.peoples-1.5", pages = "41--53", }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,针对社交媒体内容的情感分析日益受到重视,尤其是涉及平等、多样性与包容性的积极言论检测。HopeEDI数据集的构建过程体现了严谨的学术方法,其数据源自YouTube平台上关于女性在STEM领域、LGBTIQ议题、COVID-19等社会热点话题的用户评论。通过精心设计的谷歌表单,研究团队邀请了来自英语国家及泰米尔纳德邦、斯里兰卡等地区的多位标注者参与,每位标注者均接受过平等、多样性与包容性相关教育,确保了标注过程的专业性与多样性。数据经过匿名化处理,移除了个人身份信息,同时保留了与种族、性别等特征相关的关键内容,以支持深入研究。
特点
该数据集在社交媒体内容分析领域具有显著特色,其核心在于首次以多语言形式系统性地标注了希望言论,涵盖了英语、泰米尔语和马拉雅拉姆语三种语言,其中泰米尔语和马拉雅拉姆语部分还包含了代码混合现象,真实反映了社交媒体语言使用的复杂性。数据规模适中,英语、泰米尔语和马拉雅拉姆语分别包含数万条标注样本,并细分为训练集和验证集,便于模型开发与评估。标签体系清晰定义了“希望言论”、“非希望言论”及语言标识类别,为平等、多样性与包容性研究提供了高质量、结构化的基础资源。
使用方法
研究人员可利用该数据集开展希望言论检测任务,推动自然语言处理技术在促进积极网络环境方面的应用。使用前需通过HuggingFace平台或指定竞赛页面获取数据,数据以标准配置形式组织,支持按语言分别加载。典型工作流程包括数据预处理、模型训练与评估,可基于提供的训练集构建分类模型,并在验证集上测试性能,参考公开的基准结果进行比较。鉴于数据涉及敏感社会议题,使用者应严格遵守伦理准则,仅将数据用于学术研究,并关注模型可能存在的偏见,确保技术应用符合社会责任。
背景与挑战
背景概述
在社交媒体内容审核领域,传统研究多聚焦于仇恨言论或冒犯性语言的检测,而忽视了积极内容的识别与促进。HopeEDI数据集由Bharathi Raja Chakravarthi等人于2020年构建,旨在填补这一空白,专注于平等、多样性与包容性背景下的希望语音检测。该数据集采集自YouTube平台用户评论,涵盖英语、泰米尔语和马拉雅拉姆语三种语言,共计近六万条人工标注样本。作为首个多语言希望语音标注资源,它不仅推动了自然语言处理在积极内容分析方向的发展,也为研究少数群体如LGBTIQ社区和STEM领域女性的网络表达提供了重要数据基础。
当前挑战
HopeEDI数据集面临的挑战主要体现在两个方面:在领域问题层面,希望语音检测本身具有高度主观性和语境依赖性,其定义常随文化、社会背景而变化,导致模型难以准确区分鼓励性言论与普通内容;同时,多语言与代码混合文本(如泰米尔语-英语混合)增加了语义理解的复杂性,要求模型具备跨语言泛化能力。在构建过程中,数据收集面临敏感话题(如种族、性别议题)的伦理约束,需在保护用户隐私与保留必要社会特征间取得平衡;此外,标注工作依赖跨地域的众包专家,确保标注者背景多样性以避免偏见,这一过程耗时且成本高昂。
常用场景
经典使用场景
在社交媒体内容审核与情感分析领域,HopeEDI数据集为希望言论检测任务提供了关键的多语言基准。该数据集通过标注英语、泰米尔语和马拉雅拉姆语的YouTube评论,构建了包含希望言论与非希望言论的文本分类框架。研究者通常利用该数据集训练和评估自然语言处理模型,以识别那些促进平等、多样性和包容性的积极言论,从而在自动化内容筛选中实现正向强化。
实际应用
在实际应用层面,HopeEDI数据集可服务于社交媒体平台的智能内容管理。通过自动化检测希望言论,平台能够优先展示鼓励性、支持性的用户评论,营造积极健康的在线讨论环境。此外,该数据集也可用于开发心理健康辅助工具,帮助识别和推广具有疗愈作用的网络言论,或在教育领域中用于培训包容性沟通技能,促进多元文化背景下的社会凝聚力。
衍生相关工作
基于HopeEDI数据集,学术界已衍生出一系列经典研究工作。例如,在EACL 2021相关竞赛中,该数据集被用作多语言希望言论检测任务的评估基准,催生了多种先进的文本分类模型。后续研究进一步探索了代码混合文本的处理技术、跨语言迁移学习策略,以及结合心理学理论的希望言论计算框架,这些工作显著丰富了计算语言学与社会计算交叉领域的研究图谱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作