Bills

Name: Bills
Creator: 马里兰大学帕克分校
Published: 2025-02-21 01:19:41
License: 暂无描述

arXiv2025-02-21 更新2025-02-22 收录

下载链接：

https://huggingface.co/datasets/zli12321/Bills

下载链接

链接失效反馈

官方服务：

资源简介：

Bills数据集是一个标准的主题模型基准，由马里兰大学帕克分校的研究人员创建。该数据集包含了来自第110-114届美国国会的32661个法案摘要，这些法案摘要被分类到21个顶级主题和112个次级主题中。研究通过对两个数据集的使用，评估了传统主题模型和大型语言模型在帮助用户理解大型文档集合方面的有效性，探讨了人类在环对模型性能的影响。该数据集旨在解决政策分析和理解的问题，帮助研究人员更好地探索和理解法案内容。

The Bills dataset is a standard topic model benchmark developed by researchers from the University of Maryland, College Park. It contains 32,661 bill summaries from the 110th to 114th sessions of the United States Congress, which are classified into 21 top-level topics and 112 sub-topics. The study employed two datasets to evaluate the efficacy of both traditional topic models and large language models in assisting users to comprehend large-scale document collections, and explored the impact of human-in-the-loop on model performance. This dataset aims to address challenges in policy analysis and understanding, enabling researchers to better explore and grasp the content of congressional bills.

提供机构：

马里兰大学帕克分校

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

Bills数据集由美国第110至114届国会的32,661份法案摘要组成，这些摘要被分类为21个顶级和112个二级主题。数据集旨在作为主题模型的标准基准，并用于评估用户在使用不同主题模型（包括传统模型和大型语言模型（LLMs））进行数据探索时的知识获取情况。为了确保数据集的多样性和覆盖面，研究团队从国会法案中收集了11,327份摘要，并确保这些摘要不会出现在LLM的预训练数据中。

使用方法

Bills数据集可以用于多种目的，包括但不限于：1. 评估不同主题模型的性能，例如LDA、TopicGPT、LLooM和BASS。2. 研究用户在使用LLM进行数据探索时的知识获取情况。3. 探索美国国会法案中的主题分布和趋势。4. 训练和评估信息检索系统。5. 进行社会科学研究和政策分析。使用数据集时，研究人员应确保他们的研究目标与数据集的主题和结构相匹配，以便获得最准确和有用的结果。

背景与挑战

背景概述

在自然语言处理(NLP)领域，大型语言模型(LLMs)正逐渐取代传统的主题模型，用于帮助理解大型文档集合。然而，LLMs在实际应用中的有效性仍然有待探讨。本文介绍了一个名为'Bills'的数据集，该数据集由美国马里兰大学和西班牙卡洛斯三世大学的专家团队创建，旨在研究LLMs在大型语料库理解方面的应用。Bills数据集包含了32,661份美国国会法案摘要，被分为21个顶级主题和112个二级主题。该数据集的研究背景主要围绕如何有效地利用LLMs来探索和理解大型语料库，特别是在解决特定领域数据集的挑战方面。Bills数据集的研究结果对于推动LLMs在数据探索和主题建模领域的应用具有重要的参考价值。

当前挑战

Bills数据集的当前挑战主要表现在以下几个方面：1) LLMs在描述大型语料库的细节方面存在困难，特别是在解决特定领域数据集的挑战时；2) LLMs的上下文长度限制导致其在扩展性和幻觉方面存在局限性。为了克服这些挑战，研究人员提出了将人类监督添加到LLM生成过程中的方法，以提高数据探索的效率和准确性。然而，这种方法需要更多的人类努力。此外，LLMs的推理能力有待提高，以减少对人类干预的依赖，并降低成本。未来的研究可以探索混合方法，结合传统聚类技术和LLMs来生成初始聚类，并使用LLMs来产生主题，同时使用置信度检测器来识别问题主题供用户纠正。这种方法可以最小化用户的工作量，同时降低LLM提示的成本。

常用场景

经典使用场景

在自然语言处理（NLP）领域，理解大型文档集合是一项常见任务，其方法已从传统的主题模型转向大型语言模型（LLM）。然而，LLM在现实世界应用中理解大型语料库的有效性尚未得到充分探索。本研究通过两项数据集，评估了用户在使用无监督、监督LLM方法或传统主题模型进行数据探索时获得的知识量。结果显示，基于LLM的方法能够生成更易读的主题，并且在数据探索方面表现出更高的平均胜率，但对于特定领域的数据集，它们生成的主题过于通用，导致用户难以深入了解文档内容。通过在LLM生成过程中添加人类监督，可以提高数据探索的效率，减少幻觉和过度泛化现象，但需要更多的人力投入。相比之下，传统模型如潜在狄利克雷分配（LDA）在探索方面仍然有效，但用户友好性较差。本研究表明，LLM在没有人类帮助的情况下难以描述大型语料库的“草堆”，特别是在特定领域的数据集中，并且由于上下文长度的限制，面临着扩展和幻觉的限制。

解决学术问题

该数据集解决了LLM在描述大型语料库的“草堆”时缺乏人类帮助的问题，尤其是在特定领域的数据集中。LLM在面对大型语料库时，由于上下文长度的限制，面临着扩展和幻觉的限制。通过在LLM生成过程中添加人类监督，可以提高数据探索的效率，减少幻觉和过度泛化现象，从而帮助用户更好地理解文档内容。

实际应用

该数据集的实际应用场景包括政策制定、教育、心理健康、社交媒体、公共舆论等领域。例如，在政策制定领域，可以使用该数据集来理解政策制定者采取的常见政策行动；在教育领域，可以使用该数据集来发现教育政策中的主题；在心理健康领域，可以使用该数据集来探索心理健康研究主题；在社交媒体和公共舆论领域，可以使用该数据集来分析社交媒体上的主题和公共舆论。

数据集最近研究