five

Bills

收藏
Hugging Face2025-02-27 更新2025-02-28 收录
下载链接:
https://huggingface.co/datasets/zli12321/Bills
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了用于评估大型语言模型(LLM)基于主题发现方法的基准数据集,并与传统主题模型进行比较。Bills Dataset是包含32,661个立法文件摘要的数据集,分为训练集和测试集,涵盖21个顶级和112个次级主题。Wiki Dataset则是包含14,290篇文章的数据集,涉及15个高级和45个中级主题。
创建时间:
2025-02-20
搜集汇总
数据集介绍
main_image_url
构建方式
Bills数据集的构建是基于美国第110届至第114届国会的立法文件,共收集了32,661项法案摘要,并按照21个顶级主题和112个次级主题进行了分类。该数据集旨在为评估大型语言模型(LLM)在主题发现方面的性能提供一个基准,同时也为传统主题模型提供了比较基准。
特点
Bills数据集的特点在于其丰富的立法文本资源和精细的主题分类。该数据集涵盖了广泛的立法议题,不仅包含训练集,还提供了测试集,使得研究者在评估模型性能时能够进行全面的验证。此外,数据集遵循Apache-2.0许可,保证了数据的开放性和可访问性。
使用方法
使用Bills数据集时,研究者可以通过HuggingFace的datasets库轻松加载训练集和测试集。数据集的加载过程简单直观,有利于快速集成到研究工作流程中。加载后,研究者可以利用该数据集对LLM进行主题发现性能的评估,以及与传统主题模型的比较研究。
背景与挑战
背景概述
Bills数据集是一项针对大型语言模型(LLM)主题发现方法进行评估的基准数据集,旨在与传统的主题模型进行比较。该数据集汇集了来自第110届至第114届美国国会的32,661份法案摘要,并按照21个顶层和112个次级主题进行分类。此数据集的创建,旨在为研究人员提供一个宝贵的资源,以探究LLM在主题建模及在相关领域的能力。该数据集的相关研究工作在论文《Large Language Models Struggle to Describe the Haystack without Human Help: Human-in-the-loop Evaluation of LLMs》中进行描述,并由Zongxia Li等研究人员完成,展示了LLM在主题建模领域的研究进展及其影响力。
当前挑战
Bills数据集面临的挑战主要在于两个方面:一是如何准确评估LLM在主题发现方面的性能,尤其是在缺乏人类帮助的情况下;二是数据集构建过程中,对法案摘要的准确分类和主题模型的稳定性验证。具体而言,挑战包括确保LLM生成的主题具有可解释性、稳定性和一致性,以及评价标准对于LLM主题模型的适用性和准确性。
常用场景
经典使用场景
在当前自然语言处理研究领域,Bills数据集以其独特的立法文档属性,成为评估大型语言模型(LLM)在主题发现任务中的性能的重要资源。该数据集涵盖了美国第110至114届国会的32,661份法案摘要,并分为21个顶级和112个次级主题,其应用场景主要集中在利用LLM对法案文本进行主题建模,以识别和理解立法文献的核心议题。
实际应用
在实际应用中,Bills数据集可用于政策分析、立法趋势研究以及政治文本挖掘等领域。通过对法案主题的深入分析,政府机构、研究组织能够更好地理解立法动态,预测政策方向,从而提高政策制定的针对性和有效性。
衍生相关工作
基于Bills数据集的研究衍生出了一系列相关工作,如对LLM在主题生成中的虚构或稳定性问题的探讨,以及重新评估主题模型在内容分析中的表现等。这些研究不仅推动了LLM在主题建模领域的应用,也为神经网络主题模型的可解释性和评估方法提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作