five

WikiLinks

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/WikiLinks
下载链接
链接失效反馈
官方服务:
资源简介:
WikiLinks数据集是一个按段落、短语或部分段落本身搜索维基百科全文的数据集。数据集将维基百科上的每个页面视为代表一个实体 (或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模的标记数据。 数据集包括: 来自400万多篇文章的近19亿个单词4000万提到300万实体10压缩文本文件数据-0000[0-9]-of-00010.gz。 此数据集是在2012年9月29日上创建的。
提供机构:
OpenDataLab
创建时间:
2023-04-20
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WikiLinks是一个基于维基百科的大规模全文搜索数据集,将页面视为实体并使用锚文本作为提及,包含约400万篇文章、19亿单词和4000万提及。该数据集由马萨诸塞大学阿默斯特分校于2012年9月29日发布,数据以压缩文本文件形式提供。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作