Wikipedia Outline Relational Lexicon Dataset (WORLD)
收藏github2024-07-07 更新2024-07-08 收录
下载链接:
https://github.com/vtempest/Wiki-World-Model
下载链接
链接失效反馈官方服务:
资源简介:
WORLD数据集包含35k个最受欢迎的Wikipedia页面标题及其与词典短语的相关映射,以及162k个术语的词典,结合了OpenEnglish WordNet,具有多重定义、120k同义词和45个概念类别。数据集以JSON Prefix Trie格式排列,便于通过首词进行词条查找和短语提取。
The WORLD dataset encompasses 35,000 of the most popular Wikipedia page titles along with their relevant mappings to dictionary phrases, and a lexicon of 162,000 terms. It integrates the OpenEnglish WordNet, featuring multiple definitions, 120,000 synonyms, and 45 conceptual categories. The dataset is organized in a JSON Prefix Trie format, facilitating efficient entry lookup and phrase extraction based on initial words.
创建时间:
2024-07-05
原始信息汇总
Wiki-World-Model 数据集概述
数据集简介
Wiki-World-Model 是一个基于维基百科的知识图谱数据集,旨在为语言模型(LLM)和研究代理提供核心主题短语图和词典资源。该数据集通过整合维基百科的流行页面、词典短语和实体识别,构建了一个自组织的知识图谱,用于信息检索、主题建模和语义分析。
核心组件
1. WORLD(Wikipedia Outline Relational Lexicon & Dictionary)
- 内容:包含维基百科10万个最受欢迎页面的标题和链接,形成一个核心主题短语图。
- 规模:
- 240,000个单词和短语
- 117,000个首单词或单字
- 84,000个单词和67,000个短语(来自OpenEnglishWordNet词典)
- 特点:
- 包含领域特异性评分和大小写规则
- 使用JSON前缀树(Prefix Trie)进行高效查找
2. SEEKTOPIC(关键词和主题提取)
- 功能:从文档中提取领域特定的关键词和核心句子
- 处理流程:
- 句子分割
- 词元化和短语提取
- 名词n-gram提取
- 关键词合并和权重计算
- 基于TextRank算法的句子加权
- 输出:返回核心句子和关键词及其关联
3. WRITEFAT(术语相关性加权)
- 方法:使用维基百科术语频率作为基准,计算术语特异性
- 数据:包含325,000个英语维基百科单词及其频率
- 应用:用于文档检索中的相关性排序
4. 文本处理工具
- Tractor文本提取器:支持从网页、PDF和YouTube视频中提取内容
- Tardigrade网络爬虫:支持复杂网站的抓取,包括绕过反爬机制
技术特点
- 数据结构:使用前缀树实现高效短语查找(O(1)时间复杂度)
- 算法:结合TextRank、BM25等算法进行文本分析和排序
- 集成能力:可与多种LLM API(如Groq Llama、OpenAI、Anthropic)配合使用
应用场景
- 研究代理的知识库构建
- 文档自动摘要和关键词提取
- 语义搜索和检索增强生成(RAG)
- 主题建模和知识图谱构建
- 学术文献管理和分析
相关资源
搜集汇总
数据集介绍

构建方式
WORLD数据集的构建基于维基百科的100,000个最受欢迎页面的核心主题短语图。通过识别和映射维基页面实体及其相关词典短语,构建了一个关系词典。这一过程包括提取频繁的关键短语、HTML链接、研究论文引用以及全局网络搜索中的关键短语查询,从而为LLM研究代理提供了一个全面的研究基础概述。
特点
WORLD数据集的特点在于其广泛的主题覆盖和高度结构化的数据组织。它包含了240,000个单词和短语,其中117,000个是单个单词或短语的首词,确保了每个词条的唯一性和重要性。此外,数据集还结合了OpenEnglishWordNet的词典,提供了120,000个定义和45个概念类别,增强了其语义深度和领域特异性。
使用方法
使用WORLD数据集时,用户可以通过JSON前缀Trie进行快速查找,确保高效的词条检索。数据集支持多种应用场景,包括但不限于自动完成查询、主题短语提取和文档链接图构建。通过结合Wiki-IDF和BM25算法,用户可以计算词条的特异性和相关性,从而优化搜索结果和文档摘要的生成。
背景与挑战
背景概述
Wikipedia Outline Relational Lexicon Dataset (WORLD) 是由一群致力于人工智能研究的专家和机构创建的,旨在通过维基百科的100,000个最受欢迎页面的核心主题短语图,为语言模型研究代理提供一个全面的主题模型。该数据集的创建时间不详,但其核心研究问题在于如何利用维基百科的结构化信息来增强语言模型的理解和推理能力。WORLD数据集的影响力在于其为AI研究提供了一个新的视角,通过将维基百科的内容转化为可用于机器学习的格式,推动了自然语言处理领域的发展。
当前挑战
WORLD数据集面临的挑战包括如何有效地从维基百科中提取和组织信息,以确保数据的质量和一致性。此外,构建过程中需要处理大量的文本数据,这要求高效的文本处理技术和强大的计算资源。另一个挑战是如何确保提取的关键短语和主题能够准确反映文档的核心内容,这对于后续的机器学习任务至关重要。最后,数据集的更新和维护也是一个持续的挑战,因为维基百科的内容不断更新,需要定期同步以保持数据集的时效性。
常用场景
经典使用场景
在自然语言处理(NLP)领域,Wikipedia Outline Relational Lexicon Dataset(WORLD)数据集的经典使用场景主要集中在语言模型的训练与优化。该数据集通过整合维基百科的100,000个最受欢迎页面的标题及其关系,为大型语言模型(LLM)提供了丰富的语义和结构信息。研究者可以利用这些数据来训练模型,使其能够更好地理解和生成与维基百科内容相关的文本,从而提升模型的知识推理和文本生成能力。
衍生相关工作
WORLD数据集的发布催生了多项相关研究和工作。例如,研究者基于该数据集开发了多种语言模型和知识图谱构建工具,这些工具在学术界和工业界都得到了广泛应用。此外,WORLD数据集还激发了关于如何更有效地利用大规模语义数据进行模型训练和优化的研究,推动了自然语言处理领域的技术进步。许多研究论文和开源项目都基于WORLD数据集进行了深入探讨和实践,进一步扩展了其在不同应用场景中的影响力。
数据集最近研究
最新研究方向
在自然语言处理领域,Wikipedia Outline Relational Lexicon Dataset (WORLD) 数据集的最新研究方向主要集中在利用其丰富的语义关系和结构化信息来提升语言模型的理解和推理能力。研究者们通过构建复杂的知识图谱,将维基百科页面中的实体和关系映射到向量空间,从而实现更精确的语义搜索和信息提取。此外,WORLD数据集还被用于开发智能研究代理,这些代理能够自动推荐相关研究文献,并生成摘要和研究大纲,极大地提高了研究效率。随着大型语言模型(LLMs)的发展,WORLD数据集的应用前景更加广阔,尤其是在增强模型的知识推理和决策能力方面,具有重要的研究价值和实际意义。
以上内容由遇见数据集搜集并总结生成



