WikiLinks 维基百科链接数据集
收藏超神经2023-09-12 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/16632
下载链接
链接失效反馈官方服务:
资源简介:
WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体 (或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。
The WikiLinks Wikipedia Link Dataset is a dataset that enables full-text search over Wikipedia articles at the granularity of paragraphs, individual phrases, or partial segments of a paragraph. This dataset treats each Wikipedia page as representing an entity, concept, or idea, is built upon hyperlinks retrieved from web searches, uses anchor text as entity mentions, and ultimately generates large-scale labeled data requiring no manual annotation effort.
创建时间:
2023-04-27
搜集汇总
数据集介绍

背景与挑战
背景概述
WikiLinks 维基百科链接数据集是一个大规模文本数据集,包含来自维基百科400多万篇文章的近19亿个单词和300万个实体的4000万个提法,适用于文档理解、图像识别和自然语言处理任务。数据集以10个压缩文件形式提供,总大小为1.71GB。
以上内容由遇见数据集搜集并总结生成



