ro-h/regulatory_comments

Name: ro-h/regulatory_comments
Creator: ro-h
Published: 2024-03-21 18:53:32
License: 暂无描述

Hugging Face2024-03-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ro-h/regulatory_comments

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Regulation.gov Public Comments，主要包含美国政府部门公开征求公众意见的法规提案。数据集通过Regulation.gov的公共API收集并清理了与物质使用相关的法规提案的公众评论。每个样本代表一个法规提案（docket），并包含提案的元数据（如提案ID、标题等）以及前10条评论的元数据和评论内容。数据集已经预加载并保存到存储库中，用户可以直接使用，也可以通过API调用获取更多数据。数据集的结构包括法规提案的元数据和评论的元数据及内容，适用于文本分类任务。

提供机构：

ro-h

原始信息汇总

数据集卡片 - 监管评论（预下载；无API调用）

数据集详情

数据集描述和结构

该数据集包含约100个监管文件夹（dockets）。每个文件夹至少包含一条评论，最多包含10条评论。评论按照相关性顺序从Regulation.gov获取。

文件夹元数据

id (int): 每个监管文件夹的唯一数字标识符。
agency (str): 发布监管文件夹的机构的缩写（例如，"FDA"）。
title (str): 监管文件夹的官方标题或名称。
update_date (str): 文件夹在Regulations.gov上最后一次修改的日期。
update_time (str): 文件夹在Regulations.gov上最后一次修改的时间。
purpose (str): 文件夹是规则制定、非规则制定还是其他。
keywords (list): Regulations.gov确定的关键词列表。

评论元数据

comment_id (int): 每条公众评论的唯一数字标识符。
comment_url (str): 指向Regulations.gov上特定评论或文件夹的URL。
comment_date (str): 评论在Regulations.gov上发布的日期。
comment_time (str): 评论在Regulations.gov上发布的时间。
commenter_fname (str): 提交评论的个人或实体的名字。
commenter_lname (str): 提交评论的个人或实体的姓氏。
comment_length (int): 评论的字符数（包括空格）。

评论内容

text (str): 提交的评论的实际文本。

数据集限制

评论者的姓名特征在系统后期才引入，因此某些文件夹可能没有名字/姓氏条目。
一些评论仅通过附件上传，系统中存储为null，因为API无法访问评论附件。

数据集来源

原始网站: [https://www.regulations.gov/]
API网站: [https://open.gsa.gov/api/regulationsgov/]

用途

该数据集可用于对公众评论如何影响监管发展感兴趣的研究人员或政策利益相关者。例如，可以对评论文本进行情感分析，或者对评论长度和机构监管进行简单的描述性分析。

数据集创建

筛选方法

对于每个文件夹，我们获取相关的元数据，如文件夹ID、标题、上下文、目的和关键词。
每个文件夹的前10条评论被收集，包括它们的元数据（评论ID、URL、日期、标题、评论者的名字和姓氏）和评论文本本身。
该过程专注于每个文件夹的前25条评论，并根据它们在API响应中的出现顺序选择前10条评论。没有评论的文件夹被过滤掉。

数据规范化

收集的数据被规范化为结构化格式。每个文件夹及其相关评论被组织成嵌套的字典结构。

数据清洗

从评论文本中移除HTML文本标签。然而，评论的原始内容保持不变，这意味着原始评论中的任何拼写错误或语法错误都被保留。

使用的工具和库

Requests Library: 用于向Regulations.gov API发出API调用以获取文件夹和评论数据。
Datasets Library from HuggingFace: 用于定义和管理数据集的结构和生成过程。
Python: 整个数据收集和处理脚本使用Python编写。

错误处理

如果API请求失败（由非200 HTTP响应状态指示），当前文件夹的数据收集过程将停止，并转到下一个文件夹。

5,000+

优质数据集

54 个

任务类型

进入经典数据集