WikiLinks
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/WikiLinks
下载链接
链接失效反馈官方服务:
资源简介:
WikiLinks数据集是一个按段落、短语或部分段落本身搜索维基百科全文的数据集。数据集将维基百科上的每个页面视为代表一个实体 (或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模的标记数据。
数据集包括:
来自400万多篇文章的近19亿个单词4000万提到300万实体10压缩文本文件数据-0000[0-9]-of-00010.gz。
此数据集是在2012年9月29日上创建的。
提供机构:
OpenDataLab
创建时间:
2023-04-20
搜集汇总
数据集介绍

背景与挑战
背景概述
WikiLinks是一个基于维基百科的大规模全文搜索数据集,将页面视为实体并使用锚文本作为提及,包含约400万篇文章、19亿单词和4000万提及。该数据集由马萨诸塞大学阿默斯特分校于2012年9月29日发布,数据以压缩文本文件形式提供。
以上内容由遇见数据集搜集并总结生成



