shavarani/AIDA_testc
收藏数据集概述
基本信息
- 名称: AIDA/testc
- 许可证: cc-by-4.0
- 论文引用: SPEL: Structured Prediction for Entity Linking (EMNLP 2023)
- 数据来源: 131篇路透社新闻文章,发布日期为2020年12月5日至7日
数据内容
- 实体链接: 将新标注的NER测试集中的命名实体提及链接到相应的维基百科页面
- 实体数量: 1,160个唯一的维基百科标识符
- 提及数量: 3,777个提及
- 总字数: 46,456字
数据格式
- 格式: NIF
- 兼容性: 可轻松集成到GERBIL平台
集成到GERBIL的步骤
-
停止GERBIL进程
-
将
aida_testc.ttl文件放入gerbil/gerbil_data/datasets/aida目录 -
打开
gerbil/src/main/properties/datasets.properties文件 -
在定义AIDA/CoNLL-Test B的最后一行下方添加以下内容:
org.aksw.gerbil.datasets.AIDATestC.file=${org.aksw.gerbil.DataPath}/datasets/aida/aida_testc.ttl org.aksw.gerbil.datasets.definition.AIDATestC.name=AIDA/CoNLL-Test C org.aksw.gerbil.datasets.definition.AIDATestC.class=org.aksw.gerbil.dataset.impl.nif.FileBasedNIFDataset org.aksw.gerbil.datasets.definition.AIDATestC.cacheable=true org.aksw.gerbil.datasets.definition.AIDATestC.experimentType=A2KB org.aksw.gerbil.datasets.definition.AIDATestC.constructorArgs=${org.aksw.gerbil.datasets.AIDATestC.file},${org.aksw.gerbil.datasets.definition.AIDATestC.name}
-
运行GERBIL,新数据集应显示出来




