five

SEACrowd/xed

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/xed
下载链接
链接失效反馈
官方服务:
资源简介:
XED数据集是一个用于基于方面的情感分析的数据集,包含来自OPUS的电影字幕,使用Plutchik的8种核心情感进行标注。数据集是多标签的,原始标注主要来自英语和芬兰语,其余语言通过标注投影生成,最终包含31种语言的超过950行标注字幕。数据集是一个持续更新的项目,未来将增加机器翻译的数据集。

This is the XED dataset. The dataset consists of emotion annotated movie subtitles from OPUS. We use Plutchiks 8 core emotions to annotate. The data is multilabel. The original annotations have been sourced for mainly English and Finnish, with the rest created using annotation projection to aligned subtitles in 41 additional languages, with 31 languages included in the final dataset (more than 950 lines of annotated subtitle lines). The dataset is an ongoing project with forthcoming additions such as machine translated datasets.
提供机构:
SEACrowd
原始信息汇总

Xed 数据集概述

基本信息

  • 数据集名称: Xed
  • 许可证: Creative Commons Attribution 4.0 (cc-by-4.0)
  • 语言:
    • 印尼语 (ind)
    • 越南语 (vie)
  • 任务类别: 基于方面的情感分析 (Aspect Based Sentiment Analysis)
  • 标签: 基于方面的情感分析

数据集描述

  • 数据来源: 来自 OPUS 的电影字幕,使用 Plutchik 的 8 种核心情绪进行标注。
  • 数据类型: 多标签数据。
  • 语言覆盖: 原始标注主要为英语和芬兰语,其余语言通过标注投影创建,最终包含 31 种语言,超过 950 行标注字幕。
  • 项目状态: 持续更新,未来将添加机器翻译数据集。

支持任务

  • 基于方面的情感分析

数据集版本

  • 源版本: 1.0.0
  • SEACrowd 版本: 2024.06.20

引用

@inproceedings{ohman2020xed, title={{XED}: A Multilingual Dataset for Sentiment Analysis and Emotion Detection}, author={{"O}hman, Emily and P{`a}mies, Marc and Kajava, Kaisla and Tiedemann, J{"o}rg}, booktitle={The 28th International Conference on Computational Linguistics (COLING 2020)}, year={2020} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总
数据集介绍
main_image_url
构建方式
XED数据集构建基于电影字幕的情感标注,采用了Plutchik的八种核心情感进行多标签标注。原始数据主要来源于英语和芬兰语的字幕,通过注释投影技术扩展到41种其他语言,最终包含31种语言的超过950行标注字幕。该数据集是一个持续更新的项目,未来计划加入机器翻译的数据集。
使用方法
使用XED数据集可以通过`datasets`库或`seacrowd`库进行加载。通过`datasets`库,用户可以直接加载数据集并指定信任远程代码。通过`seacrowd`库,用户可以选择默认配置或特定配置加载数据集,并查看所有可用的子集配置。具体使用方法可参考SEACrowd数据中心的详细指南。
背景与挑战
背景概述
XED数据集是一个专注于情感分析和情感检测的多语言数据集,由Helsinki-NLP团队于2020年创建。该数据集基于电影字幕,采用Plutchik的八种核心情感进行标注,涵盖了41种语言,最终包含31种语言的超过950条标注字幕。XED数据集的主要研究问题在于如何通过多语言情感标注来提升情感分析的准确性和跨语言适用性。该数据集在情感分析领域具有重要影响力,尤其是在多语言情感检测方面,为研究者提供了丰富的跨语言情感数据资源。
当前挑战
XED数据集在构建过程中面临多重挑战。首先,情感标注的准确性和一致性是关键问题,尤其是在多语言环境下,不同语言的情感表达方式差异较大,如何确保标注的准确性成为一大难题。其次,数据集的扩展性也是一个挑战,尽管已有31种语言的数据,但如何进一步扩展到更多语言并保持数据质量仍需解决。此外,情感分析任务本身具有主观性,如何在不同文化背景下进行情感标注,避免文化偏见,也是数据集构建中的一大挑战。最后,数据集的持续更新和维护,尤其是在引入机器翻译数据时,如何确保翻译质量与情感标注的一致性,也是未来需要解决的问题。
常用场景
经典使用场景
在情感分析领域,XED数据集以其多语言特性广泛应用于基于方面的情感分析任务。该数据集通过电影字幕的情感标注,为研究者提供了丰富的多语言情感数据资源,特别是在处理跨语言情感分析时,XED数据集能够有效支持模型的训练与评估。
解决学术问题
XED数据集解决了多语言情感分析中的关键问题,尤其是在情感标注的跨语言一致性方面。通过使用Plutchik的8种核心情感进行标注,该数据集为研究者提供了一个标准化的情感分类框架,有助于提升情感分析模型的泛化能力和跨语言适应性。
实际应用
在实际应用中,XED数据集被广泛用于电影推荐系统、社交媒体情感监测以及跨文化情感研究等领域。其多语言特性使得该数据集能够支持全球范围内的情感分析任务,特别是在东南亚语言的情感分析中,XED数据集展现了其独特的价值。
数据集最近研究
最新研究方向
在情感分析与情感检测领域,SEACrowd/xed数据集以其多语言特性与情感标注的多样性,成为研究热点。该数据集基于Plutchik的八种核心情感进行标注,涵盖了41种语言,其中31种语言被纳入最终数据集,提供了超过950条标注的电影字幕数据。当前研究聚焦于如何通过机器翻译扩展数据集的语言覆盖范围,并探索跨语言情感分析模型的性能优化。此外,该数据集在东南亚语言情感分析中的应用,为区域语言资源匮乏的问题提供了解决方案,推动了多语言情感分析技术的发展。其开源特性与持续更新的项目进展,进一步吸引了学术界与工业界的广泛关注,成为情感计算领域的重要资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作