Bills

Hugging Face2025-02-27 更新2025-02-28 收录

下载链接：

https://huggingface.co/datasets/zli12321/Bills

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于评估大型语言模型（LLM）基于主题发现方法的基准数据集，并与传统主题模型进行比较。Bills Dataset是包含32,661个立法文件摘要的数据集，分为训练集和测试集，涵盖21个顶级和112个次级主题。Wiki Dataset则是包含14,290篇文章的数据集，涉及15个高级和45个中级主题。

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

Bills数据集的构建是基于美国第110届至第114届国会的立法文件，共收集了32,661项法案摘要，并按照21个顶级主题和112个次级主题进行了分类。该数据集旨在为评估大型语言模型（LLM）在主题发现方面的性能提供一个基准，同时也为传统主题模型提供了比较基准。

特点

Bills数据集的特点在于其丰富的立法文本资源和精细的主题分类。该数据集涵盖了广泛的立法议题，不仅包含训练集，还提供了测试集，使得研究者在评估模型性能时能够进行全面的验证。此外，数据集遵循Apache-2.0许可，保证了数据的开放性和可访问性。

使用方法

使用Bills数据集时，研究者可以通过HuggingFace的datasets库轻松加载训练集和测试集。数据集的加载过程简单直观，有利于快速集成到研究工作流程中。加载后，研究者可以利用该数据集对LLM进行主题发现性能的评估，以及与传统主题模型的比较研究。

背景与挑战

背景概述

Bills数据集是一项针对大型语言模型（LLM）主题发现方法进行评估的基准数据集，旨在与传统的主题模型进行比较。该数据集汇集了来自第110届至第114届美国国会的32,661份法案摘要，并按照21个顶层和112个次级主题进行分类。此数据集的创建，旨在为研究人员提供一个宝贵的资源，以探究LLM在主题建模及在相关领域的能力。该数据集的相关研究工作在论文《Large Language Models Struggle to Describe the Haystack without Human Help: Human-in-the-loop Evaluation of LLMs》中进行描述，并由Zongxia Li等研究人员完成，展示了LLM在主题建模领域的研究进展及其影响力。

当前挑战

Bills数据集面临的挑战主要在于两个方面：一是如何准确评估LLM在主题发现方面的性能，尤其是在缺乏人类帮助的情况下；二是数据集构建过程中，对法案摘要的准确分类和主题模型的稳定性验证。具体而言，挑战包括确保LLM生成的主题具有可解释性、稳定性和一致性，以及评价标准对于LLM主题模型的适用性和准确性。

常用场景

经典使用场景

在当前自然语言处理研究领域，Bills数据集以其独特的立法文档属性，成为评估大型语言模型（LLM）在主题发现任务中的性能的重要资源。该数据集涵盖了美国第110至114届国会的32,661份法案摘要，并分为21个顶级和112个次级主题，其应用场景主要集中在利用LLM对法案文本进行主题建模，以识别和理解立法文献的核心议题。

实际应用

在实际应用中，Bills数据集可用于政策分析、立法趋势研究以及政治文本挖掘等领域。通过对法案主题的深入分析，政府机构、研究组织能够更好地理解立法动态，预测政策方向，从而提高政策制定的针对性和有效性。

衍生相关工作

基于Bills数据集的研究衍生出了一系列相关工作，如对LLM在主题生成中的虚构或稳定性问题的探讨，以及重新评估主题模型在内容分析中的表现等。这些研究不仅推动了LLM在主题建模领域的应用，也为神经网络主题模型的可解释性和评估方法提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集