NEUDM/semeval-2016|情感分析数据集|ABSA数据集

hugging_face2023-05-23 更新2024-03-04 收录

情感分析

ABSA

下载链接：

https://hf-mirror.com/datasets/NEUDM/semeval-2016

下载链接

链接失效反馈

资源简介：

该数据集属于ABSA（基于方面的情感分析）领域，主要任务是从句子中抽取方面术语、方面类别、情感极性和观点词。数据集被改造为生成任务，模型需要按照特定格式生成抽取结果。示例展示了如何从句子中抽取相关信息。原始数据集分为Laptop和Restaurant两个主题，分别放置在不同的文件夹中，且两个主题的数据抽取元素不同。当前SOTA模型在SemEval2016-Restaurant数据集上的准确率为88.70，使用的是BERT-IL Finetuned模型。

提供机构：

NEUDM

原始信息汇总

数据集概述

数据集类型

领域：Aspect-Based Sentiment Analysis (ABSA)
数据形式：JSONL文件

数据集内容

抽取信息：方面术语、方面类别(术语类别)、术语在上下文中的情感极性以及针对该术语的观点词。
任务类型：生成任务

数据集示例

数据集：acos
输入："the computer has difficulty switching between tablet and computer ."
输出：[[computer, laptop usability, negative, difficulty]]
任务说明：
- 输入：一个句子
- 输出：一个包含4-元组的列表，每个元组包含提取的方面术语、其方面类别、情感极性和观点词（如果有）。
- 示例：
  - 句子："Also its not a true SSD drive in there but eMMC, which makes a difference."
  - 输出：[[SSD drive, hard_disc operation_performance, negative, NULL]]

数据集详情

原始数据集来源：SemEval2016 Task 5: Aspect Based Sentiment Analysis
数据集分类：分为Laptop和restaurant两个主题的数据。

当前SOTA

SemEval2016-Restaurant
- 评价指标：Accuracy
- 模型：BERT-IL Finetuned (88.70)
- Paper：Does BERT Understand Sentiment? Leveraging Comparisons Between Contextual and Non-Contextual Embeddings to Improve Aspect-Based Sentiment Models

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

VEDAI

用于训练YOLO模型的VEDAI数据集，包含图像和标签，用于目标检测和跟踪。

github 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录