Topic modeling topic coverage dataset
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Topic_modeling_topic_coverage_etc
下载链接
链接失效反馈官方服务:
资源简介:
主题模型的一个普遍用例是主题发现。然而,大多数主题模型评估方法依赖于抽象度量,例如困惑度或主题连贯性。主题覆盖方法是通过将模型生成的主题与人类发现的主题相匹配来衡量模型的性能。通过这种方式,模型在其使用的上下文中进行评估,本质上是在由文本集合和一组参考主题定义的固定设置中模拟主题建模。参考主题代表了一个基本事实,可用于评估主题模型和模型性能的其他度量。覆盖方法可以对现有和未来的主题模型进行大规模自动评估。主题覆盖数据集由两个文本集合和两组参考主题组成。这两个子数据集对应于两个领域(新闻文本和生物文本),其中主题模型用于大型文本集合中的主题发现。参考主题由人工检查、选择和策划的模型生成主题组成。每个数据集包含一个预处理(标记化)文本的语料库和一组参考主题,每个主题都由单词和文本文档列表表示。数据集的详细信息,包括数据的使用说明和支持代码,在这里:https://github.com/dkorenci/topic_coverage/blob/main/data.readme.txt 可用于评估的覆盖率度量主题模型在随附的论文中进行了描述,而代码和说明可以在 github 存储库中找到。
提供机构:
OpenDataLab
创建时间:
2022-09-01



