MAIR|信息检索数据集|模型评估数据集
收藏MAIR: A Massive Benchmark for Evaluating Instructed Retrieval
数据集概述
- 名称: MAIR (Massive Instructed Retrieval Benchmark)
- 描述: 一个异构基准,用于评估指令信息检索(IR)。包含126个跨6个领域的检索任务,每个查询都带有详细的检索指令。
- 扩展应用: 包括RAG、代码检索、基于代理的检索、生物医学、法律IR等领域。
- 数据增强: 通过数据采样和多样化提高评估效率。
数据链接
- Queries: MAIR-Queries
- Docs: MAIR-Docs
数据结构
Queries Data
- 字段:
qid
: 查询IDinstruction
: 任务指令query
: 查询内容labels
: 相关文档列表,包含id
和score
Docs Data
- 字段:
id
: 文档IDdoc
: 文档内容
任务和领域
- 领域: Web、Medical、Code、Legal、Finance、Academic
- 任务数量: 126个任务
评估脚本
- 文本嵌入模型评估:
eval_embedding
- 重排序模型评估:
eval_rerank
- RankGPT评估:
RankGPT, eval_rerank
- BM25评估:
BM25, eval_bm25
IFEval任务
- 描述: 包含8个不同的指令跟随子任务,如
format
、keywords
、length
等。
引用
@inproceedings{Sun2024MAIR, title={MAIR: A Massive Benchmark for Evaluating Instructed Information Retrieval}, author={Weiwei Sun and Zhengliang Shi and Jiulong Wu and Lingyong Yan and Xinyu Ma and Yiding Liu and Min Cao and Dawei Yin and Zhaochun Ren}, booktitle={EMNLP}, year={2024}, }

TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
HRRSD
HRRSD包含21,761张从Google Earth和Baidu Map获取的高分辨率(0.15-m至1.2-m)图像,涵盖55,740个对象实例和13个类别的遥感图像对象。数据集被分为训练、验证和测试三个子集,分别包含5401、5417和10943张图像。此外,还提供了数据集的统计信息和基准测试结果。
github 收录