SST|情感分析数据集|自然语言处理数据集
收藏
- SST数据集首次发表,由Timothy Lee Massey创建,用于情感分析研究。
- SST数据集首次应用于情感分类任务,标志着其在自然语言处理领域的初步应用。
- Richard Socher等人对SST数据集进行了扩展和细化,增加了细粒度情感标签,进一步推动了情感分析技术的发展。
- SST数据集在多项自然语言处理竞赛中被广泛使用,成为情感分析领域的基准数据集之一。
- 随着深度学习技术的兴起,SST数据集被用于训练和评估多种先进的情感分析模型,如BERT和GPT。
- 1Recursive Deep Models for Semantic Compositionality Over a Sentiment TreebankStanford University · 2013年
- 2Deep Contextualized Word RepresentationsAllen Institute for AI · 2018年
- 3BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingGoogle AI Language · 2019年
- 4Improving Sentiment Analysis via Sentence Type Classification Using BiLSTM-CRF and CNNUniversity of California, Irvine · 2017年
- 5Sentiment Analysis of Movie Reviews Using Deep LearningUniversity of California, Riverside · 2018年
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录