Wiki

Hugging Face2025-02-27 更新2025-02-28 收录

下载链接：

https://huggingface.co/datasets/zli12321/Wiki

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于LLM（大型语言模型）主题发现和传统主题模型比较的基准数据集。具体包括Bills Dataset和Wiki Dataset。Bills Dataset是从美国国会110th-114th会议收集的32,661个法案摘要，分为21个顶级主题和112个次级主题。Wiki Dataset则由14,290篇文章组成，涵盖15个高级主题和45个中级主题。

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

Wiki数据集的构建汇集了14,290篇文章，这些文章涵盖了15个高级别和45个中级别的话题，其中包括音乐和动漫等广为人知的公共话题。数据集的构建从广泛的话题中筛选并整合了具有代表性的文章，旨在为话题模型的研究提供丰富的文本资源。

特点

Wiki数据集的特点在于其内容多样性及话题的层次性。不仅包含了广泛的话题范围，而且对于每个话题都进行了细致的分层，使得该数据集在话题发现和模型评估方面具有极高的应用价值。此外，数据集遵循Apache-2.0许可，保证了数据的开放性和可用性。

使用方法

使用Wiki数据集时，用户可以通过HuggingFace的datasets库方便地加载训练集和测试集。加载后，用户可以依据数据集的结构进行话题模型的训练、评估和对比分析，以推动相关研究的发展。

背景与挑战

背景概述

Wiki数据集，作为一项重要的语言处理资源，旨在为大型语言模型（LLM）的主题发现及传统主题模型提供基准测试数据集。该数据集的构建，始于对各类主题模型性能比较的需求，其原始数据来源于GitHub。研究论文《LLM-based Topic Discovery》详细介绍了该数据集的应用，其创建时间为2023年之前，主要研究人员包括Zongxia Li、Juan Francisco Fung和Jordan Boyd-Graber等，隶属于计算语言学和自然语言处理领域。该数据集对于推动主题模型研究，尤其是在LLM领域，具有显著的影响力。

当前挑战

在数据集构建与应用过程中，研究者面临了多项挑战。首先，确保数据集能够有效比较LLM与传统主题模型，需解决数据质量与标注一致性等问题。其次，数据集在主题生成方面的 hallucination（虚构现象）和稳定性问题，也是当前研究的热点。此外，对于主题模型的评价标准，例如 coherence（连贯性）是否适用于LLM-based topic models，也存在着广泛的讨论与争议。

常用场景

经典使用场景

在文本挖掘与主题模型研究领域，Wiki数据集因其广泛覆盖的高级别与中级别主题，成为评估与比较LLM（大型语言模型）主题发现能力的重要基准。该数据集汇集了14,290篇文章，涵盖音乐、动漫等公众广泛认可的话题，为研究者提供了一个多元而丰富的文本资源库，以训练和测试各种主题模型算法。

解决学术问题

Wiki数据集解决了传统主题模型在跨领域、多主题文本分析中的局限性问题，为学术研究提供了更为准确和全面的模型评估标准。它使得研究者能够深入探讨LLM在主题发现任务中的表现，识别模型在处理不同层次主题时的优势和不足，从而推动了主题模型领域的理论发展和技术应用。

衍生相关工作

基于Wiki数据集的研究衍生了多项经典工作，包括对LLM在主题生成中的幻觉和不稳定性问题进行评估的论文，以及重新评估主题模型在内容分析中标签质量的研究。这些工作不仅推动了主题模型技术的进步，也为自然语言处理领域带来了新的研究视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集