GLUE-X|自然语言处理数据集|模型评估数据集
收藏GLUE-X数据集概述
数据集简介
- 包含14个公开可用的数据集作为OOD测试数据
- 覆盖8个经典NLP任务
- 评估了常用模型在分布外(OOD)场景下的性能表现
主要发现
- NLP任务中的OOD准确率需要更多关注
- 所有实验设置中都观察到OOD准确率相比ID准确率显著下降
数据获取
- OOD测试数据下载地址:https://drive.google.com/drive/folders/1BcwjmVOqq96igfbB2MCXwLzthFX7XEhy
模型微调
- 参考Hugging Face Transformer提供的示例进行自定义模型微调
贡献者
- Shuibai Zhang:代码实现与实验执行
- Linyi Yang:指导与实验设计
- Wei Zhou:网站实现
引用信息
bibtex @article{yang2022glue, title={GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective}, author={Yang, Linyi and Zhang, Shuibai and Qin, Libo and Li, Yafu and Wang, Yidong and Liu, Hanmeng and Wang, Jindong and Xie, Xing and Zhang, Yue}, journal={arXiv preprint arXiv:2211.08073}, year={2022} }

Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
专精特新“小巨人”合肥企业名单(第一批~第四批)
根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。
合肥数据要素流通平台 收录