Twitter-2015 and Twitter-2017|社交媒体数据数据集|实体识别数据集
收藏数据集概述
数据集名称
- Twitter-2015
- Twitter-2017
数据集来源
- 原始数据集需从Google Drive下载,链接为Google Drive。
数据集处理
- 使用
./process_data/change_dataset_format_twitter2015/2017.ipynb
转换原始MNER数据集格式。 - 使用
./obtain_image_caption/image_caption_OFA_twitter2015/2017.py
获取图像标题。 - 使用
./split_data_similarity/split_dataset/split_twitter2015/2017.ipynb
采样不同数据集($mathcal{D}_ {10}$, $mathcal{D}_ {50}$, 和 $mathcal{D}_ {100}$)。
数据集用途
- 用于Few-shot Multimodal Named Entity Recognition (FewMNER)任务,旨在通过少量标注示例有效定位和识别文本-图像对中的命名实体。
数据集操作示例
-
以$mathcal{D}_{50}$和4-shot为例,运行以下命令:
python twitter2015_50-1_shot-4.py python twitter2017_50-1_shot-4.py
数据集相关文献引用
-
若使用此项目进行研究,请引用以下论文:
@inproceedings{cai-etal-2023-context, title = "In-context Learning for Few-shot Multimodal Named Entity Recognition", author = "Cai, Chenran and Wang, Qianlong and Liang, Bin and Qin, Bing and Yang, Min and Wong, Kam-Fai and Xu, Ruifeng", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2023", publisher = "Association for Computational Linguistics", doi = "10.18653/v1/2023.findings-emnlp.196", pages = "2969--2979", }

Open Power System Data
Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.
re3data.org 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录