florin-hf/nq_open_gold|问答系统数据集|自然语言处理数据集
收藏Natural Questions Open Dataset with Gold Documents
概述
该数据集是Natural Questions open dataset的精选版本,包含了原始Natural Questions (NQ)数据集中的黄金文档。与NQ-open数据集的主要区别在于,排除了黄金文档长度超过512个token的条目。
数据集来源
Natural Questions (NQ)数据集是一个大规模的真实查询集合,源自Google搜索数据。每个条目包含一个用户查询和包含答案的相应Wikipedia页面。NQ-open数据集是NQ数据集的子集,去除了将答案链接到特定Wikipedia段落的限制,模拟了更一般的信息检索场景。
数据集结构
数据集中的样本格式如下: json { example_id (int64): 问题标识符,与原始NQ数据集一致, question (str): 问题,与原始NQ中的问题相同, answers (List[str]): 原始NQ中的正确答案列表, text (str): 与问题相关的黄金文档, idx_gold_in_corpus (int64): 黄金文档在完整语料库中的索引。 }
示例: json { example_id: -3440030035760311385, question: who owned the millennium falcon before han solo, answers: ["Lando Calrissian"], text: "Han Solo won the Millennium Falcon from Lando Calrissian in the card game sabacc several years before the events of the film A New Hope...", idx_gold_in_corpus: 20995349 }
数据集划分
- 训练集: 72,209 (50.2 MB)
- 验证集: 8,006 (5.57 MB)
- 测试集: 2,889 (1.96 MB)
引用信息
plaintext @article{doi:10.1162/tacl_a_00276, author = {Kwiatkowski, Tom and Palomaki, Jennimaria and Redfield, Olivia and Collins, Michael and Parikh, Ankur and Alberti, Chris and Epstein, Danielle and Polosukhin, Illia and Devlin, Jacob and Lee, Kenton and Toutanova, Kristina and Jones, Llion and Kelcey, Matthew and Chang, Ming-Wei and Dai, Andrew M. and Uszkoreit, Jakob and Le, Quoc and Petrov, Slav}, title = {Natural Questions: A Benchmark for Question Answering Research}, journal = {Transactions of the Association for Computational Linguistics}, volume = {7}, number = {}, pages = {453-466}, year = {2019}, doi = {10.1162/tacl_a_00276}, URL = {https://doi.org/10.1162/tacl_a_00276}, eprint = {https://doi.org/10.1162/tacl_a_00276} }
@inproceedings{lee-etal-2019-latent, title = "Latent Retrieval for Weakly Supervised Open Domain Question Answering", author = "Lee, Kenton and Chang, Ming-Wei and Toutanova, Kristina", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/P19-1612", doi = "10.18653/v1/P19-1612", pages = "6086--6096" }
@misc{cuconasu2024power, title={The Power of Noise: Redefining Retrieval for RAG Systems}, author={Florin Cuconasu and Giovanni Trappolini and Federico Siciliano and Simone Filice and Cesare Campagnano and Yoelle Maarek and Nicola Tonellotto and Fabrizio Silvestri}, year={2024}, eprint={2401.14887}, archivePrefix={arXiv}, primaryClass={cs.IR} }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Global Volcanism Program (GVP)
该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。
volcano.si.edu 收录