five

irds/beir_dbpedia-entity

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/beir_dbpedia-entity
下载链接
链接失效反馈
官方服务:
资源简介:
`beir/dbpedia-entity`数据集由`ir-datasets`包提供,包含4,635,922条文档和467条查询。该数据集用于信息检索任务,特别是实体搜索。文档包含文档ID、文本、标题和URL等信息,查询包含查询ID和文本。该数据集被用于`beir_dbpedia-entity_dev`和`beir_dbpedia-entity_test`等子数据集。

数据集名称:`beir/dbpedia-entity` 数据集查看器:不可用 源数据集:无 任务类别: - 文本检索 --- # `beir/dbpedia-entity`数据集卡片 本`beir/dbpedia-entity`数据集由[ir-datasets](https://ir-datasets.com/)工具库提供。如需了解该数据集的更多详情,请参阅[官方文档](https://ir-datasets.com/beir#beir/dbpedia-entity)。 ## 数据集详情 本数据集包含以下两类数据: - `docs`(文档,即语料库):共4,635,922条 - `queries`(查询主题):共467条 本数据集的依赖数据集包括:[`beir_dbpedia-entity_dev`](https://huggingface.co/datasets/irds/beir_dbpedia-entity_dev)、[`beir_dbpedia-entity_test`](https://huggingface.co/datasets/irds/beir_dbpedia-entity_test) ## 使用方法 python from datasets import load_dataset # 加载文档语料 docs = load_dataset('irds/beir_dbpedia-entity', 'docs') for record in docs: record # 格式为 {'doc_id': ..., 'text': ..., 'title': ..., 'url': ...} # 加载查询主题 queries = load_dataset('irds/beir_dbpedia-entity', 'queries') for record in queries: record # 格式为 {'query_id': ..., 'text': ...} 请注意,调用`load_dataset`函数将自动下载该数据集(若数据集未公开,则会提供访问指引),并将数据集转换为🤗 Dataset格式存储一份副本。 ## 引用信息 @article{Hasibi2017DBpediaEntityVA, title={DBpedia-Entity v2:面向实体搜索的测试集}, author={Faegheh Hasibi and Fedor Nikolaev and Chenyan Xiong and K. Balog and S. E. Bratsberg and Alexander Kotov and J. Callan}, journal={第40届国际计算机学会信息检索研究与发展大会(SIGIR 2017)论文集}, year={2017} } @article{Thakur2021Beir, title = "BEIR:面向信息检索模型零样本(Zero-shot)评估的异构基准测试集", author = "Thakur, Nandan and Reimers, Nils and Rücklé, Andreas and Srivastava, Abhishek and Gurevych, Iryna", journal= "arXiv预印本arXiv:2104.08663", month = "4", year = "2021", url = "https://arxiv.org/abs/2104.08663", }
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

beir/dbpedia-entity

数据集来源

ir-datasets包提供。

数据内容

  • 文档(corpus): 总数为4,635,922条。
  • 查询(topics): 总数为467条。

数据集用途

用于以下数据集:

引用信息

@article{Hasibi2017DBpediaEntityVA, title={DBpedia-Entity v2: A Test Collection for Entity Search}, author={Faegheh Hasibi and Fedor Nikolaev and Chenyan Xiong and K. Balog and S. E. Bratsberg and Alexander Kotov and J. Callan}, journal={Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval}, year={2017} } @article{Thakur2021Beir, title = "BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models", author = "Thakur, Nandan and Reimers, Nils and Rücklé, Andreas and Srivastava, Abhishek and Gurevych, Iryna", journal= "arXiv preprint arXiv:2104.08663", month = "4", year = "2021", url = "https://arxiv.org/abs/2104.08663", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作