Wiki
收藏Hugging Face2025-02-27 更新2025-02-28 收录
下载链接:
https://huggingface.co/datasets/zli12321/Wiki
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用于LLM(大型语言模型)主题发现和传统主题模型比较的基准数据集。具体包括Bills Dataset和Wiki Dataset。Bills Dataset是从美国国会110th-114th会议收集的32,661个法案摘要,分为21个顶级主题和112个次级主题。Wiki Dataset则由14,290篇文章组成,涵盖15个高级主题和45个中级主题。
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
Wiki数据集的构建汇集了14,290篇文章,这些文章涵盖了15个高级别和45个中级别的话题,其中包括音乐和动漫等广为人知的公共话题。数据集的构建从广泛的话题中筛选并整合了具有代表性的文章,旨在为话题模型的研究提供丰富的文本资源。
特点
Wiki数据集的特点在于其内容多样性及话题的层次性。不仅包含了广泛的话题范围,而且对于每个话题都进行了细致的分层,使得该数据集在话题发现和模型评估方面具有极高的应用价值。此外,数据集遵循Apache-2.0许可,保证了数据的开放性和可用性。
使用方法
使用Wiki数据集时,用户可以通过HuggingFace的datasets库方便地加载训练集和测试集。加载后,用户可以依据数据集的结构进行话题模型的训练、评估和对比分析,以推动相关研究的发展。
背景与挑战
背景概述
Wiki数据集,作为一项重要的语言处理资源,旨在为大型语言模型(LLM)的主题发现及传统主题模型提供基准测试数据集。该数据集的构建,始于对各类主题模型性能比较的需求,其原始数据来源于GitHub。研究论文《LLM-based Topic Discovery》详细介绍了该数据集的应用,其创建时间为2023年之前,主要研究人员包括Zongxia Li、Juan Francisco Fung和Jordan Boyd-Graber等,隶属于计算语言学和自然语言处理领域。该数据集对于推动主题模型研究,尤其是在LLM领域,具有显著的影响力。
当前挑战
在数据集构建与应用过程中,研究者面临了多项挑战。首先,确保数据集能够有效比较LLM与传统主题模型,需解决数据质量与标注一致性等问题。其次,数据集在主题生成方面的 hallucination(虚构现象)和稳定性问题,也是当前研究的热点。此外,对于主题模型的评价标准,例如 coherence(连贯性)是否适用于LLM-based topic models,也存在着广泛的讨论与争议。
常用场景
经典使用场景
在文本挖掘与主题模型研究领域,Wiki数据集因其广泛覆盖的高级别与中级别主题,成为评估与比较LLM(大型语言模型)主题发现能力的重要基准。该数据集汇集了14,290篇文章,涵盖音乐、动漫等公众广泛认可的话题,为研究者提供了一个多元而丰富的文本资源库,以训练和测试各种主题模型算法。
解决学术问题
Wiki数据集解决了传统主题模型在跨领域、多主题文本分析中的局限性问题,为学术研究提供了更为准确和全面的模型评估标准。它使得研究者能够深入探讨LLM在主题发现任务中的表现,识别模型在处理不同层次主题时的优势和不足,从而推动了主题模型领域的理论发展和技术应用。
衍生相关工作
基于Wiki数据集的研究衍生了多项经典工作,包括对LLM在主题生成中的幻觉和不稳定性问题进行评估的论文,以及重新评估主题模型在内容分析中标签质量的研究。这些工作不仅推动了主题模型技术的进步,也为自然语言处理领域带来了新的研究视角和方法论。
以上内容由遇见数据集搜集并总结生成



