Wikipedia Outline Relational Lexicon Dataset (WORLD)

github2024-07-07 更新2024-07-08 收录

下载链接：

https://github.com/vtempest/Wiki-World-Model

下载链接

链接失效反馈

官方服务：

资源简介：

WORLD数据集包含35k个最受欢迎的Wikipedia页面标题及其与词典短语的相关映射，以及162k个术语的词典，结合了OpenEnglish WordNet，具有多重定义、120k同义词和45个概念类别。数据集以JSON Prefix Trie格式排列，便于通过首词进行词条查找和短语提取。

The WORLD dataset encompasses 35,000 of the most popular Wikipedia page titles along with their relevant mappings to dictionary phrases, and a lexicon of 162,000 terms. It integrates the OpenEnglish WordNet, featuring multiple definitions, 120,000 synonyms, and 45 conceptual categories. The dataset is organized in a JSON Prefix Trie format, facilitating efficient entry lookup and phrase extraction based on initial words.

创建时间：

2024-07-05

原始信息汇总

Wiki-World-Model 数据集概述

数据集简介

Wiki-World-Model 是一个基于维基百科的知识图谱数据集，旨在为语言模型（LLM）和研究代理提供核心主题短语图和词典资源。该数据集通过整合维基百科的流行页面、词典短语和实体识别，构建了一个自组织的知识图谱，用于信息检索、主题建模和语义分析。

核心组件

1. WORLD（Wikipedia Outline Relational Lexicon & Dictionary）

内容：包含维基百科10万个最受欢迎页面的标题和链接，形成一个核心主题短语图。
规模：
- 240,000个单词和短语
- 117,000个首单词或单字
- 84,000个单词和67,000个短语（来自OpenEnglishWordNet词典）
特点：
- 包含领域特异性评分和大小写规则
- 使用JSON前缀树（Prefix Trie）进行高效查找

2. SEEKTOPIC（关键词和主题提取）

功能：从文档中提取领域特定的关键词和核心句子
处理流程：
1. 句子分割
2. 词元化和短语提取
3. 名词n-gram提取
4. 关键词合并和权重计算
5. 基于TextRank算法的句子加权
输出：返回核心句子和关键词及其关联

3. WRITEFAT（术语相关性加权）

方法：使用维基百科术语频率作为基准，计算术语特异性
数据：包含325,000个英语维基百科单词及其频率
应用：用于文档检索中的相关性排序

4. 文本处理工具

Tractor文本提取器：支持从网页、PDF和YouTube视频中提取内容
Tardigrade网络爬虫：支持复杂网站的抓取，包括绕过反爬机制

技术特点

数据结构：使用前缀树实现高效短语查找（O(1)时间复杂度）
算法：结合TextRank、BM25等算法进行文本分析和排序
集成能力：可与多种LLM API（如Groq Llama、OpenAI、Anthropic）配合使用

应用场景

研究代理的知识库构建
文档自动摘要和关键词提取
语义搜索和检索增强生成（RAG）
主题建模和知识图谱构建
学术文献管理和分析

相关资源

搜集汇总

数据集介绍

构建方式

WORLD数据集的构建基于维基百科的100,000个最受欢迎页面的核心主题短语图。通过识别和映射维基页面实体及其相关词典短语，构建了一个关系词典。这一过程包括提取频繁的关键短语、HTML链接、研究论文引用以及全局网络搜索中的关键短语查询，从而为LLM研究代理提供了一个全面的研究基础概述。

特点

WORLD数据集的特点在于其广泛的主题覆盖和高度结构化的数据组织。它包含了240,000个单词和短语，其中117,000个是单个单词或短语的首词，确保了每个词条的唯一性和重要性。此外，数据集还结合了OpenEnglishWordNet的词典，提供了120,000个定义和45个概念类别，增强了其语义深度和领域特异性。

使用方法

使用WORLD数据集时，用户可以通过JSON前缀Trie进行快速查找，确保高效的词条检索。数据集支持多种应用场景，包括但不限于自动完成查询、主题短语提取和文档链接图构建。通过结合Wiki-IDF和BM25算法，用户可以计算词条的特异性和相关性，从而优化搜索结果和文档摘要的生成。

背景与挑战

背景概述

Wikipedia Outline Relational Lexicon Dataset (WORLD) 是由一群致力于人工智能研究的专家和机构创建的，旨在通过维基百科的100,000个最受欢迎页面的核心主题短语图，为语言模型研究代理提供一个全面的主题模型。该数据集的创建时间不详，但其核心研究问题在于如何利用维基百科的结构化信息来增强语言模型的理解和推理能力。WORLD数据集的影响力在于其为AI研究提供了一个新的视角，通过将维基百科的内容转化为可用于机器学习的格式，推动了自然语言处理领域的发展。

当前挑战

WORLD数据集面临的挑战包括如何有效地从维基百科中提取和组织信息，以确保数据的质量和一致性。此外，构建过程中需要处理大量的文本数据，这要求高效的文本处理技术和强大的计算资源。另一个挑战是如何确保提取的关键短语和主题能够准确反映文档的核心内容，这对于后续的机器学习任务至关重要。最后，数据集的更新和维护也是一个持续的挑战，因为维基百科的内容不断更新，需要定期同步以保持数据集的时效性。

常用场景

经典使用场景

在自然语言处理（NLP）领域，Wikipedia Outline Relational Lexicon Dataset（WORLD）数据集的经典使用场景主要集中在语言模型的训练与优化。该数据集通过整合维基百科的100,000个最受欢迎页面的标题及其关系，为大型语言模型（LLM）提供了丰富的语义和结构信息。研究者可以利用这些数据来训练模型，使其能够更好地理解和生成与维基百科内容相关的文本，从而提升模型的知识推理和文本生成能力。

衍生相关工作

WORLD数据集的发布催生了多项相关研究和工作。例如，研究者基于该数据集开发了多种语言模型和知识图谱构建工具，这些工具在学术界和工业界都得到了广泛应用。此外，WORLD数据集还激发了关于如何更有效地利用大规模语义数据进行模型训练和优化的研究，推动了自然语言处理领域的技术进步。许多研究论文和开源项目都基于WORLD数据集进行了深入探讨和实践，进一步扩展了其在不同应用场景中的影响力。

数据集最近研究