coderchen01/MMSD2.0|多模态讽刺检测数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 名称: multimodal-sarcasm-dataset
- 标签:
- sarcasm
- sarcasm-detection
- mulitmodal-sarcasm-detection
- sarcasm detection
- multimodao sarcasm detection
- tweets
- 任务类别:
- feature-extraction
- text-classification
- image-classification
- image-feature-extraction
- zero-shot-classification
- zero-shot-image-classification
- 大小范围: 10K<n<100K
- 语言: en
- 许可证: unknown
数据集配置
-
mmsd-original
- 特征:
- image: dtype: image
- text: dtype: string
- label: dtype: int64
- id: dtype: string
- 分割:
- train: num_examples: 19816, num_bytes: 1816845826.384
- validation: num_examples: 2410, num_bytes: 260077790.0
- test: num_examples: 2409, num_bytes: 262679920.717
- 下载大小: 2690517598
- 数据集大小: 2339603537.101
- 特征:
-
mmsd-v1
- 特征:
- image: dtype: image
- text: dtype: string
- label: dtype: int64
- id: dtype: string
- 分割:
- train: num_examples: 19557, num_bytes: 1797951865.232
- validation: num_examples: 2387, num_bytes: 259504817.817
- test: num_examples: 2373, num_bytes: 261609842.749
- 下载大小: 2668004199
- 数据集大小: 2319066525.798
- 特征:
-
mmsd-v2
- 特征:
- image: dtype: image
- text: dtype: string
- label: dtype: int64
- id: dtype: string
- 分割:
- train: num_examples: 19816, num_bytes: 1816541209.384
- validation: num_examples: 2410, num_bytes: 260043003.0
- test: num_examples: 2409, num_bytes: 262641462.717
- 下载大小: 2690267623
- 数据集大小: 2339225675.101
- 特征:
数据文件配置
-
mmsd-original
- 训练数据: mmsd-original/train-*
- 验证数据: mmsd-original/validation-*
- 测试数据: mmsd-original/test-*
-
mmsd-v1
- 训练数据: mmsd-v1/train-*
- 验证数据: mmsd-v1/validation-*
- 测试数据: mmsd-v1/test-*
-
mmsd-v2
- 训练数据: mmsd-v2/train-*
- 验证数据: mmsd-v2/validation-*
- 测试数据: mmsd-v2/test-*

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
鄱阳湖流域主要水文站实时日水位观测数据集(2017-2024年)
该数据集为鄱阳湖流域主要水文站的逐日实时水位数据集。包含了外洲站、李家渡站、湖口站、星子站、万家埠站、都昌等10个主要水文站的日水位数据,观测时间为每日8:00。共享政策为一次可共享3000条数据,一个站点的一日数据为一条记录,一年可申请一次。 数据集包含1个excel表格文件,日水位.xlsx。
国家地球系统科学数据中心 收录