GLUE|自然语言处理数据集|自然语言理解数据集
收藏GLUE Baselines数据集概述
数据集基本信息
- 数据集名称: GLUE (Generalized Language Understanding Evaluation)
- 基准代码库: 提供GLUE基准测试的基线模型实现代码
- 相关论文: GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
数据集获取
-
下载方式: 提供Python脚本下载所有GLUE数据和标准分割 python python download_glue_data.py --data_dir glue_data --tasks all
-
特殊地区处理: 针对中国用户提供MRPC数据的替代下载方案 python git clone https://github.com/wasiahmad/paraphrase_identification.git python download_glue_data.py --data_dir glue_data --tasks all --path_to_mrpc=paraphrase_identification/dataset/msr-paraphrase-corpus
依赖环境
- 环境配置: 需安装environment.yml中列出的软件包
- 特定版本要求:
- PyTorch 0.4
- 可能需要从源码安装AllenNLP
预训练资源
- GloVe词向量: 使用300维840B版本
- CoVe实现: 来自salesforce/cove
- ELMo实现: 来自AllenNLP
运行方式
- 主程序: src/main.py
- 关键参数:
--exp_dir
: 共享预处理结果的目录--run_dir
: 保存特定运行信息的目录--train_tasks
: 训练任务设置--word_embs_file
: GloVe文件路径
替代工具推荐
- 推荐工具: jiant
- 推荐原因: 更全面、文档更完善的工具包
引用信息
bibtex @unpublished{wang2018glue title={{GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding} author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.} note={arXiv preprint 1804.07461} year={2018} }

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录