WORLD

github2024-07-24 更新2024-07-25 收录

下载链接：

https://github.com/vtempest/wiki-phrases-tokenizer

下载链接

链接失效反馈

官方服务：

资源简介：

使用维基百科的35K热门页面作为核心主题短语图，为LLM研究代理搜索和概述研究基础。大多数在线文档（以及集体意识中的思考）可以围绕核心主题短语链接的图表展开。

Using 35K popular Wikipedia pages as a graph of interlinked core topic phrases, this dataset is designed to empower LLM-powered research agents to search for and outline research foundations. Most online documents (as well as collective conscious thinking) can be developed around this graph.

创建时间：

2024-07-05

原始信息汇总

数据集概述

WORLD: Wikipedia Outline Relational Lexicon & Dictionary

核心内容：使用维基百科的35,000个最受欢迎页面作为核心主题短语图，用于LLM研究代理的搜索和概述研究基础。
数据组成：
- 35,000个术语 - 维基百科最受欢迎页面的标题及其与字典短语的相关映射。
- 162,000个术语 - 结合了OpenEnglish WordNet的词典，包含多个定义、120,000个同义词和45个概念类别。
- JSON前缀树 - 按首词排序，用于从文本中提取短语。

DSEEK: Domain-Specific Extraction of Entities and Keywords

功能：用于发现特定领域的独特关键短语，使用名词Ngrams。
处理步骤：
1. 使用Compromise分割成句子。
2. 标记化、规范化并获取名词。
3. 提取名词边缘短语。
4. 折叠较小的Ngrams。
5. 计算命名实体和短语的领域特定性。
6. 传递给下一层仅包含按频率排序的顶级关键短语。
7. 创建一个双环加权图，将关键短语映射为中心环，每个使用该概念的句子映射在外环。
8. 使用TextRank名词关键短语频率对句子进行加权。
9. 截断顶部句子或关键短语。
10. 返回顶级句子和关键短语。

WINTER: Wikipedia Important Named Topic Entity Recognition

功能：识别维基百科页面标题。
数据：使用35,000个最受欢迎页面的列表。
输出：返回页面标题、匹配索引和计数。

WikiBM25: Term Specificity Search for a Single Doc

功能：使用BM25公式计算单个文档的术语特定性。
特点：使用维基百科的术语频率作为跨文档的逆频率基线。

使用案例

WikiIDF：使用维基百科的术语频率作为基线，用于替换或结合所有文档的IDF。
自动完成和基于短语的查询搜索：用于搜索自动完成下拉菜单。
LLM RAG Chunk to Query Similarity：用于将文档分块并找到与查询最相关的部分。
LLM Ground Truth Model：使用维基百科的顶级35,000个热门页面作为核心主题。

统计数据

总术语（频率>=32）：324,896
文件大小（JSON，频率>=32）：4MB
总文章数（Wiki-en-2020）：5,989,879

BM25公式

$$ ext{score}(D,Q) = sum_{i=1}^{N} ext{W-IDF}(q_i) imes frac{f(q_i, D) cdot (k_1 + 1)}{f(q_i, D) + k_1 cdot left(1 - b + b cdot frac{|D|}{ ext{avgdl}} ight)}$$

维基百科搜索API

功能：查询维基百科搜索API并返回页面标题、图像和每个结果的前几句话。
参数：
- 返回纯文本而非HTML。
- 摘要限制为3句话。
- 限制搜索结果数量。
- 包含图像。
- 图像大小为200像素。
- 搜索仅限于标题。
- 根据查询与标题的Jaro-Winkler距离重新排序。
- 过滤歧义页面。

搜集汇总

数据集介绍

构建方式

WORLD数据集的构建基于Wikipedia的100,000个最受欢迎页面的核心主题短语图。通过识别和映射维基百科页面实体与字典短语，数据集构建了一个关系词汇和词典。这一过程包括六个主要步骤：维基页面实体识别、频繁关键词提取、HTML链接分析、研究论文引用处理、关键词全局网络搜索以及特定站点推荐。这些步骤共同为语言模型研究代理提供了全面的研究基础，使其能够深入理解、总结和概述研究内容。

特点

WORLD数据集的显著特点在于其基于维基百科的广泛覆盖和高度结构化的内容。数据集包含了240,000个单词和短语，其中117,000个是单个词或首个词，确保了每个词条的精确性和广泛性。此外，数据集还整合了OpenEnglishWordNet，提供了120,000个定义和45个概念类别，增强了其词汇的深度和广度。通过JSON前缀Trie数据结构，WORLD实现了高效的词条查找，确保了快速且准确的数据检索。

使用方法

使用WORLD数据集时，用户可以通过其丰富的词汇和短语库进行深入的研究和分析。数据集支持多种应用场景，包括但不限于语言模型的训练、文本摘要生成、关键词提取和主题建模。用户可以利用数据集中的维基百科页面实体和关系词汇进行查询和分析，从而获得对特定主题的深入理解。此外，WORLD还提供了详细的文档和示例输出，帮助用户快速上手并充分利用数据集的潜力。

背景与挑战

背景概述

WORLD数据集由一群前沿的AI研究人员和机构创建，旨在探索和模拟人类思维的自组织过程。该数据集的核心研究问题是如何将复杂的互联网信息转化为一个自组织的思维地图，以便AI模型能够更有效地推荐研究引文、进化群体思维推理，并提供更快的长篇文章阅读方式。WORLD数据集的创建时间不详，但其主要研究人员和机构通过GitHub上的活跃讨论和持续更新展示了其对AI研究领域的深远影响。该数据集不仅为AI模型的推理和决策提供了新的视角，还为公众服务提供了研究答案，推动了AI民主化经济的进程。

当前挑战

WORLD数据集在构建过程中面临多项挑战。首先，如何从海量的互联网信息中提取和组织关键主题和概念，形成一个有效的自组织思维地图，是一个复杂且耗时的任务。其次，数据集需要处理不同来源和格式的数据，包括网页、PDF文档和视频等，这要求高效的文本提取和结构化技术。此外，数据集还需要解决如何确保提取的信息的准确性和完整性，以及如何动态更新和维护数据集的实时性。最后，WORLD数据集还需要应对如何平衡信息的广泛性和深度，以确保AI模型能够全面而深入地理解并应用这些信息。

常用场景

经典使用场景

WORLD数据集的经典使用场景在于其能够为大型语言模型（LLM）提供丰富的知识图谱和词典资源。通过整合维基百科的100,000个最受欢迎页面的标题和链接，WORLD数据集构建了一个核心主题短语图，使得LLM能够更深入地理解和总结研究基础。这种图谱不仅为LLM提供了丰富的上下文信息，还支持其在处理复杂查询时提供更精确的答案和建议。

衍生相关工作

WORLD数据集的发布催生了一系列相关研究和工作，特别是在知识图谱和自然语言处理领域。例如，基于WORLD数据集的研究代理工具（如AI Research Agent）已经成为了学术界和工业界的重要工具，用于自动化文献综述和研究推荐。此外，WORLD数据集还启发了许多关于如何更有效地构建和利用大规模知识库的研究，推动了NLP技术的边界扩展。

数据集最近研究