nasa-impact/nasa-smd-IR-benchmark
收藏Hugging Face2024-10-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nasa-impact/nasa-smd-IR-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
NASA SMD和IBM Research共同开发了一个领域特定的信息检索基准`NASA-IR`,涵盖了地球科学、行星科学、太阳物理学、天体物理学和生物物理科学等领域。数据集包含近500个问答对,这些问答对是从AGU、AMS、ADS、PMC和PubMed中抽取的166个段落,并手动标注了每个段落的3个可回答问题,总计498个问题。其中398个问题用于训练集,100个问题用于验证集。为了全面评估信息检索系统并模拟真实世界的数据,数据集还结合了26,839个随机ADS摘要。每个查询平均长度为12个单词,每个段落平均长度为120个单词。评估指标使用Recall@10,因为每个问题只有一个相关文档。该数据集是为了支持训练和评估编码语言模型`Indus`而发布的。
NASA SMD和IBM Research共同开发了一个领域特定的信息检索基准`NASA-IR`,涵盖了地球科学、行星科学、太阳物理学、天体物理学和生物物理科学等领域。数据集包含近500个问答对,这些问答对是从AGU、AMS、ADS、PMC和PubMed中抽取的166个段落,并手动标注了每个段落的3个可回答问题,总计498个问题。其中398个问题用于训练集,100个问题用于验证集。为了全面评估信息检索系统并模拟真实世界的数据,数据集还结合了26,839个随机ADS摘要。每个查询平均长度为12个单词,每个段落平均长度为120个单词。评估指标使用Recall@10,因为每个问题只有一个相关文档。该数据集是为了支持训练和评估编码语言模型`Indus`而发布的。
提供机构:
nasa-impact
原始信息汇总
数据集概述
数据集名称
- NASA-IR
数据集开发机构
- NASA SMD(NASA科学任务部)
- IBM Research
数据集内容
- 包含近500个问题-答案对,涉及地球科学、行星科学、日地物理学、天体物理学和生物物理科学领域。
- 从AGU、AMS、ADS、PMC和PubMed中抽样166个段落,并为每个段落手动标注了3个可回答的问题,总计498个问题。
- 使用398个问题作为训练集,剩余100个问题作为验证集。
数据集特点
- 结合了26,839个随机的ADS摘要与这些标注段落,以全面评估信息检索系统并模拟真实世界数据。
- 平均每个查询长度为12个单词,每个段落长度为120个单词。
- 使用Recall@10作为评估指标,因为每个问题只有一个相关文档。
数据集用途
- 支持训练和评估编码语言模型"Indus"。
相关文献
- 相关论文链接:https://arxiv.org/abs/2405.10725



