five

shavarani/AIDA_testc

收藏
Hugging Face2023-10-27 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/shavarani/AIDA_testc
下载链接
链接失效反馈
官方服务:
资源简介:
AIDA/testc数据集来源于论文《SPEL: Structured Prediction for Entity Linking (EMNLP 2023)》,包含131篇2020年12月5日至7日期间发布的Reuters新闻文章。数据集中的命名实体提及被链接到相应的Wikipedia页面,使用了与原始AIDA数据集相同的链接程序。数据集包含1,160个唯一的Wikipedia标识符,涵盖3,777个提及和46,456个单词。数据集采用NIF格式,可以轻松集成到GERBIL中。

The AIDA/testc dataset is sourced from the paper *SPEL: Structured Prediction for Entity Linking (EMNLP 2023)*. It comprises 131 Reuters news articles published between December 5 and 7, 2020. Named entity mentions within the dataset are linked to their corresponding Wikipedia pages, using the same linking procedure as the original AIDA dataset. The dataset contains 1,160 unique Wikipedia identifiers, covering 3,777 entity mentions and 46,456 words. It adopts the NIF format and can be easily integrated into GERBIL.
提供机构:
shavarani
原始信息汇总

数据集概述

基本信息

  • 名称: AIDA/testc
  • 许可证: cc-by-4.0
  • 论文引用: SPEL: Structured Prediction for Entity Linking (EMNLP 2023)
  • 数据来源: 131篇路透社新闻文章,发布日期为2020年12月5日至7日

数据内容

  • 实体链接: 将新标注的NER测试集中的命名实体提及链接到相应的维基百科页面
  • 实体数量: 1,160个唯一的维基百科标识符
  • 提及数量: 3,777个提及
  • 总字数: 46,456字

数据格式

  • 格式: NIF
  • 兼容性: 可轻松集成到GERBIL平台

集成到GERBIL的步骤

  1. 停止GERBIL进程

  2. aida_testc.ttl文件放入gerbil/gerbil_data/datasets/aida目录

  3. 打开gerbil/src/main/properties/datasets.properties文件

  4. 在定义AIDA/CoNLL-Test B的最后一行下方添加以下内容:

    org.aksw.gerbil.datasets.AIDATestC.file=${org.aksw.gerbil.DataPath}/datasets/aida/aida_testc.ttl org.aksw.gerbil.datasets.definition.AIDATestC.name=AIDA/CoNLL-Test C org.aksw.gerbil.datasets.definition.AIDATestC.class=org.aksw.gerbil.dataset.impl.nif.FileBasedNIFDataset org.aksw.gerbil.datasets.definition.AIDATestC.cacheable=true org.aksw.gerbil.datasets.definition.AIDATestC.experimentType=A2KB org.aksw.gerbil.datasets.definition.AIDATestC.constructorArgs=${org.aksw.gerbil.datasets.AIDATestC.file},${org.aksw.gerbil.datasets.definition.AIDATestC.name}

  5. 运行GERBIL,新数据集应显示出来

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
AIDA/testc是一个用于实体链接任务的测试数据集,源自论文《SPEL: Structured Prediction for Entity Linking》。该数据集包含131篇Reuters新闻文章,共计46,456个单词,其中标注了3,777个实体提及并链接到1,160个维基百科页面。数据集采用NIF格式,专门设计用于与GERBIL实体链接评估系统集成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作