NEUDM/semeval-2016|情感分析数据集|ABSA数据集
收藏数据集概述
数据集类型
- 领域:Aspect-Based Sentiment Analysis (ABSA)
- 数据形式:JSONL文件
数据集内容
- 抽取信息:方面术语、方面类别(术语类别)、术语在上下文中的情感极性以及针对该术语的观点词。
- 任务类型:生成任务
数据集示例
- 数据集:acos
- 输入:"the computer has difficulty switching between tablet and computer ."
- 输出:[[computer, laptop usability, negative, difficulty]]
- 任务说明:
- 输入:一个句子
- 输出:一个包含4-元组的列表,每个元组包含提取的方面术语、其方面类别、情感极性和观点词(如果有)。
- 示例:
- 句子:"Also its not a true SSD drive in there but eMMC, which makes a difference."
- 输出:[[SSD drive, hard_disc operation_performance, negative, NULL]]
数据集详情
- 原始数据集来源:SemEval2016 Task 5: Aspect Based Sentiment Analysis
- 数据集分类:分为Laptop和restaurant两个主题的数据。
当前SOTA
- SemEval2016-Restaurant
- 评价指标:Accuracy
- 模型:BERT-IL Finetuned (88.70)
- Paper:Does BERT Understand Sentiment? Leveraging Comparisons Between Contextual and Non-Contextual Embeddings to Improve Aspect-Based Sentiment Models
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
VEDAI
用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。
github 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录