five

c4lliope/us-congress

收藏
Hugging Face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/c4lliope/us-congress
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: key dtype: string - name: title dtype: string - name: summaries struct: - name: pagination struct: - name: count dtype: int64 - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: summaries list: - name: actionDate dtype: string - name: actionDesc dtype: string - name: text dtype: string - name: updateDate dtype: string - name: versionCode dtype: string - name: plaintext dtype: string - name: sponsor dtype: string - name: actions struct: - name: actions list: - name: actionCode dtype: string - name: actionDate dtype: string - name: actionTime dtype: string - name: calendarNumber struct: - name: calendar dtype: string - name: number dtype: string - name: committees list: - name: name dtype: string - name: systemCode dtype: string - name: url dtype: string - name: recordedVotes list: - name: chamber dtype: string - name: congress dtype: int64 - name: date dtype: string - name: rollNumber dtype: int64 - name: sessionNumber dtype: int64 - name: url dtype: string - name: sourceSystem struct: - name: code dtype: int64 - name: name dtype: string - name: text dtype: string - name: type dtype: string - name: pagination struct: - name: count dtype: int64 - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: amendments struct: - name: amendments list: - name: congress dtype: int64 - name: description dtype: string - name: latestAction struct: - name: actionDate dtype: string - name: actionTime dtype: string - name: text dtype: string - name: number dtype: string - name: purpose dtype: string - name: type dtype: string - name: updateDate dtype: string - name: url dtype: string - name: pagination struct: - name: count dtype: int64 - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: committees struct: - name: committees list: - name: activities list: - name: date dtype: string - name: name dtype: string - name: chamber dtype: string - name: name dtype: string - name: subcommittees list: - name: activities list: - name: date dtype: string - name: name dtype: string - name: name dtype: string - name: systemCode dtype: string - name: url dtype: string - name: systemCode dtype: string - name: type dtype: string - name: url dtype: string - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: cosponsors struct: - name: cosponsors list: - name: bioguideId dtype: string - name: district dtype: int64 - name: firstName dtype: string - name: fullName dtype: string - name: isOriginalCosponsor dtype: bool - name: lastName dtype: string - name: middleName dtype: string - name: party dtype: string - name: sponsorshipDate dtype: string - name: sponsorshipWithdrawnDate dtype: string - name: state dtype: string - name: url dtype: string - name: pagination struct: - name: count dtype: int64 - name: countIncludingWithdrawnCosponsors dtype: int64 - name: prev dtype: string - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: index struct: - name: bill struct: - name: actions struct: - name: count dtype: int64 - name: url dtype: string - name: amendments struct: - name: count dtype: int64 - name: url dtype: string - name: cboCostEstimates list: - name: description dtype: string - name: pubDate dtype: string - name: title dtype: string - name: url dtype: string - name: committeeReports list: - name: citation dtype: string - name: url dtype: string - name: committees struct: - name: count dtype: int64 - name: url dtype: string - name: congress dtype: int64 - name: constitutionalAuthorityStatementText dtype: string - name: cosponsors struct: - name: count dtype: int64 - name: countIncludingWithdrawnCosponsors dtype: int64 - name: url dtype: string - name: introducedDate dtype: string - name: latestAction struct: - name: actionDate dtype: string - name: actionTime dtype: string - name: text dtype: string - name: laws list: - name: number dtype: string - name: type dtype: string - name: number dtype: string - name: originChamber dtype: string - name: policyArea struct: - name: name dtype: string - name: relatedBills struct: - name: count dtype: int64 - name: url dtype: string - name: sponsors list: - name: bioguideId dtype: string - name: district dtype: int64 - name: firstName dtype: string - name: fullName dtype: string - name: isByRequest dtype: string - name: lastName dtype: string - name: middleName dtype: string - name: party dtype: string - name: state dtype: string - name: url dtype: string - name: subjects struct: - name: count dtype: int64 - name: url dtype: string - name: summaries struct: - name: count dtype: int64 - name: url dtype: string - name: textVersions struct: - name: count dtype: int64 - name: url dtype: string - name: title dtype: string - name: titles struct: - name: count dtype: int64 - name: url dtype: string - name: type dtype: string - name: updateDate dtype: string - name: updateDateIncludingText dtype: string - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: relatedbills struct: - name: pagination struct: - name: count dtype: int64 - name: relatedBills list: - name: congress dtype: int64 - name: latestAction struct: - name: actionDate dtype: string - name: actionTime dtype: string - name: text dtype: string - name: number dtype: int64 - name: relationshipDetails list: - name: identifiedBy dtype: string - name: type dtype: string - name: title dtype: string - name: type dtype: string - name: url dtype: string - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: subjects struct: - name: pagination struct: - name: count dtype: int64 - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: subjects struct: - name: legislativeSubjects list: - name: name dtype: string - name: policyArea struct: - name: name dtype: string - name: text struct: - name: pagination struct: - name: count dtype: int64 - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: textVersions list: - name: date dtype: string - name: formats list: - name: type dtype: string - name: url dtype: string - name: type dtype: string - name: titles struct: - name: pagination struct: - name: count dtype: int64 - name: request struct: - name: billNumber dtype: string - name: billType dtype: string - name: billUrl dtype: string - name: congress dtype: string - name: contentType dtype: string - name: format dtype: string - name: titles list: - name: billTextVersionCode dtype: string - name: billTextVersionName dtype: string - name: chamberCode dtype: string - name: chamberName dtype: string - name: title dtype: string - name: titleType dtype: string splits: - name: train num_bytes: 42798980 num_examples: 6433 download_size: 6439766 dataset_size: 42798980 --- # Dataset Card for "us-congress" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息: 特征字段: - 名称:key,数据类型:字符串(string) - 名称:title,数据类型:字符串(string) - 名称:summaries,数据类型:结构体(struct),包含: - 分页信息(pagination):结构体,包含计数(count),数据类型为64位整型(int64) - 请求参数(request):结构体,包含法案编号(billNumber,字符串)、法案类型(billType,字符串)、法案链接(billUrl,字符串)、国会届数(congress,字符串)、内容类型(contentType,字符串)、格式(format,字符串) - 摘要列表(summaries):列表类型,每个列表项为结构体,包含动作日期(actionDate,字符串)、动作描述(actionDesc,字符串)、文本内容(text,字符串)、更新日期(updateDate,字符串)、版本代码(versionCode,字符串) - 名称:plaintext,数据类型:字符串(string) - 名称:sponsor,数据类型:字符串(string) - 名称:actions,数据类型:结构体(struct),包含: - 操作记录列表(actions):列表类型,每个列表项为结构体,包含: - 操作代码(actionCode,字符串) - 动作日期(actionDate,字符串) - 动作时间(actionTime,字符串) - 日历编号(calendarNumber):结构体,包含日历标识(calendar,字符串)、编号(number,字符串) - 委员会列表(committees):列表类型,每个列表项为结构体,包含委员会名称(name,字符串)、系统代码(systemCode,字符串)、链接(url,字符串) - 记录投票列表(recordedVotes):列表类型,每个列表项为结构体,包含议院(chamber,字符串)、国会届数(congress,64位整型)、日期(date,字符串)、点名编号(rollNumber,64位整型)、会议编号(sessionNumber,64位整型)、链接(url,字符串) - 源系统(sourceSystem):结构体,包含代码(code,64位整型)、名称(name,字符串) - 文本内容(text,字符串) - 操作类型(type,字符串) - 分页信息(pagination):结构体,包含计数(count,64位整型) - 请求参数(request):同前述请求参数字段 - 名称:amendments,数据类型:结构体(struct),包含: - 修正案列表(amendments):列表类型,每个列表项为结构体,包含国会届数(congress,64位整型)、描述(description,字符串)、最新操作(latestAction):结构体,包含动作日期、动作时间、文本内容(均为字符串)、编号(number,字符串)、目的(purpose,字符串)、类型(type,字符串)、更新日期(updateDate,字符串)、链接(url,字符串) - 分页信息(pagination):结构体,包含计数(count,64位整型) - 请求参数(request):同前述请求参数字段 - 名称:committees,数据类型:结构体(struct),包含: - 委员会列表(committees):列表类型,每个列表项为结构体,包含: - 活动列表(activities):列表类型,每个列表项包含日期(date,字符串)、活动名称(name,字符串) - 议院(chamber,字符串) - 委员会名称(name,字符串) - 小组委员会列表(subcommittees):列表类型,每个列表项为结构体,包含活动列表(activities,同前述活动列表结构)、小组委员会名称(name,字符串)、系统代码(systemCode,字符串)、链接(url,字符串) - 系统代码(systemCode,字符串) - 委员会类型(type,字符串) - 链接(url,字符串) - 请求参数(request):同前述请求参数字段 - 名称:cosponsors,数据类型:结构体(struct),包含: - 联合提案人列表(cosponsors):列表类型,每个列表项为结构体,包含生物指南ID(bioguideId,字符串)、选区(district,64位整型)、名字(firstName,字符串)、全名(fullName,字符串)、是否为初始联合提案人(isOriginalCosponsor,布尔值bool)、姓氏(lastName,字符串)、中间名(middleName,字符串)、党派(party,字符串)、提案日期(sponsorshipDate,字符串)、撤回提案日期(sponsorshipWithdrawnDate,字符串)、州(state,字符串)、链接(url,字符串) - 分页信息(pagination):结构体,包含计数(count,64位整型)、含撤回联合提案人的计数(countIncludingWithdrawnCosponsors,64位整型)、前一页链接(prev,字符串) - 请求参数(request):同前述请求参数字段 - 名称:index,数据类型:结构体(struct),包含: - 法案详情(bill):结构体,包含: - 操作记录(actions):结构体,包含计数(count,64位整型)、链接(url,字符串) - 修正案(amendments):结构体,包含计数(count,64位整型)、链接(url,字符串) - 国会预算办公室(CBO)成本估算列表(cboCostEstimates):列表类型,每个列表项包含描述(description,字符串)、发布日期(pubDate,字符串)、标题(title,字符串)、链接(url,字符串) - 委员会报告列表(committeeReports):列表类型,每个列表项包含引用(citation,字符串)、链接(url,字符串) - 委员会(committees):结构体,包含计数(count,64位整型)、链接(url,字符串) - 国会届数(congress,64位整型) - 宪法授权声明文本(constitutionalAuthorityStatementText,字符串) - 联合提案人(cosponsors):结构体,包含计数(count,64位整型)、含撤回联合提案人的计数(countIncludingWithdrawnCosponsors,64位整型)、链接(url,字符串) - 提出日期(introducedDate,字符串) - 最新操作(latestAction):结构体,包含动作日期、动作时间、文本内容(均为字符串) - 法律列表(laws):列表类型,每个列表项包含编号(number,字符串)、类型(type,字符串) - 法案编号(number,字符串) - 起源议院(originChamber,字符串) - 政策领域(policyArea):结构体,包含名称(name,字符串) - 相关法案(relatedBills):结构体,包含计数(count,64位整型)、链接(url,字符串) - 提案发起人列表(sponsors):列表类型,每个列表项包含生物指南ID(bioguideId,字符串)、选区(district,64位整型)、名字(firstName,字符串)、全名(fullName,字符串)、是否受委托提案(isByRequest,字符串)、姓氏(lastName,字符串)、中间名(middleName,字符串)、党派(party,字符串)、州(state,字符串)、链接(url,字符串) - 主题(subjects):结构体,包含计数(count,64位整型)、链接(url,字符串) - 摘要(summaries):结构体,包含计数(count,64位整型)、链接(url,字符串) - 文本版本(textVersions):结构体,包含计数(count,64位整型)、链接(url,字符串) - 标题(title,字符串) - 标题列表(titles):结构体,包含计数(count,64位整型)、链接(url,字符串) - 法案类型(type,字符串) - 更新日期(updateDate,字符串) - 含文本的更新日期(updateDateIncludingText,字符串) - 请求参数(request):结构体,包含法案编号(billNumber,字符串)、法案类型(billType,字符串)、国会届数(congress,字符串)、内容类型(contentType,字符串)、格式(format,字符串) - 名称:relatedbills,数据类型:结构体(struct),包含: - 分页信息(pagination):结构体,包含计数(count,64位整型) - 相关法案列表(relatedBills):列表类型,每个列表项为结构体,包含国会届数(congress,64位整型)、最新操作(latestAction,同前述最新操作结构体)、编号(number,64位整型)、关系详情列表(relationshipDetails):列表类型,每个列表项包含识别标识(identifiedBy,字符串)、关系类型(type,字符串)、标题(title,字符串)、法案类型(type,字符串)、链接(url,字符串) - 请求参数(request):同前述请求参数字段 - 名称:subjects,数据类型:结构体(struct),包含: - 分页信息(pagination):结构体,包含计数(count,64位整型) - 请求参数(request):同前述请求参数字段 - 主题详情(subjects):结构体,包含立法主题列表(legislativeSubjects):列表类型,每个列表项包含名称(name,字符串)、政策领域(policyArea):结构体,包含名称(name,字符串) - 名称:text,数据类型:结构体(struct),包含: - 分页信息(pagination):结构体,包含计数(count,64位整型) - 请求参数(request):同前述请求参数字段 - 文本版本列表(textVersions):列表类型,每个列表项为结构体,包含日期(date,字符串)、格式列表(formats):列表类型,每个列表项包含格式类型(type,字符串)、链接(url,字符串)、文本类型(type,字符串) - 名称:titles,数据类型:结构体(struct),包含: - 分页信息(pagination):结构体,包含计数(count,64位整型) - 请求参数(request):同前述请求参数字段 - 标题列表(titles):列表类型,每个列表项为结构体,包含法案文本版本代码(billTextVersionCode,字符串)、法案文本版本名称(billTextVersionName,字符串)、议院代码(chamberCode,字符串)、议院名称(chamberName,字符串)、标题(title,字符串)、标题类型(titleType,字符串) 数据集划分: - 名称:训练集(train),字节大小:42798980,示例数量:6433 下载大小:6439766,数据集总大小:42798980 --- # 「美国国会(us-congress)」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
c4lliope
原始信息汇总

数据集概述

数据集名称

"us-congress"

数据集结构

主要特征

  • key: 字符串类型
  • title: 字符串类型
  • summaries: 结构化数据,包含多个子特征
    • pagination: 结构化数据,包含count(int64类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
    • summaries: 列表,包含多个字段如actionDate, actionDesc, text, updateDate, versionCode(均为字符串类型)
  • plaintext: 字符串类型
  • sponsor: 字符串类型
  • actions: 结构化数据,包含多个子特征
    • actions: 列表,包含多个字段如actionCode, actionDate, actionTime, calendarNumber, committees, recordedVotes, sourceSystem, text, type(其中calendarNumber为结构化数据,committeesrecordedVotes为列表,sourceSystem为结构化数据,其余为字符串类型)
    • pagination: 结构化数据,包含count(int64类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
  • amendments: 结构化数据,包含多个子特征
    • amendments: 列表,包含多个字段如congress, description, latestAction, number, purpose, type, updateDate, url(其中latestAction为结构化数据,其余为字符串类型)
    • pagination: 结构化数据,包含count(int64类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
  • committees: 结构化数据,包含多个子特征
    • committees: 列表,包含多个字段如activities, chamber, name, subcommittees, systemCode, type, url(其中activitiessubcommittees为列表,其余为字符串类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
  • cosponsors: 结构化数据,包含多个子特征
    • cosponsors: 列表,包含多个字段如bioguideId, district, firstName, fullName, isOriginalCosponsor, lastName, middleName, party, sponsorshipDate, sponsorshipWithdrawnDate, state, url(均为字符串类型)
    • pagination: 结构化数据,包含countcountIncludingWithdrawnCosponsors(均为int64类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
  • index: 结构化数据,包含多个子特征
    • bill: 结构化数据,包含多个字段如actions, amendments, cosponsors, introducedDate, latestAction, number, originChamber, policyArea, relatedBills, sponsors, subjects, summaries, textVersions, title, titles, type, updateDate, updateDateIncludingText(其中actions, amendments, cosponsors, latestAction, relatedBills, sponsors, subjects, summaries, textVersions, titles为结构化数据,其余为字符串类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, congress, contentType, format(均为字符串类型)
  • relatedbills: 结构化数据,包含多个子特征
    • pagination: 结构化数据,包含count(int64类型)
    • relatedBills: 列表,包含多个字段如congress, latestAction, number, relationshipDetails, title, type, url(其中latestAction为结构化数据,relationshipDetails为列表,其余为字符串类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
  • subjects: 结构化数据,包含多个子特征
    • pagination: 结构化数据,包含count(int64类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
    • subjects: 结构化数据,包含legislativeSubjectspolicyArea(其中legislativeSubjects为列表,policyArea为结构化数据,其余为字符串类型)
  • text: 结构化数据,包含多个子特征
    • pagination: 结构化数据,包含count(int64类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
    • textVersions: 列表,包含多个字段如date, formats, type(其中formats为列表,其余为字符串类型)
  • titles: 结构化数据,包含多个子特征
    • pagination: 结构化数据,包含count(int64类型)
    • request: 结构化数据,包含多个字段如billNumber, billType, billUrl, congress, contentType, format(均为字符串类型)
    • titles: 列表,包含多个字段如billTextVersionCode, billTextVersionName, chamberCode, chamberName, title, titleType(均为字符串类型)

数据集大小

  • 下载大小: 6439766字节
  • 数据集大小: 42798980字节
  • 训练集大小: 42798980字节
  • 训练集示例数量: 6433
搜集汇总
数据集介绍
main_image_url
构建方式
c4lliope/us-congress数据集的构建基于美国国会的大量立法数据,涵盖了从法案的提出到最终行动的详细信息。数据集通过结构化的方式记录了每个法案的关键信息,包括法案编号、标题、摘要、行动记录、修正案、委员会活动、共同提案人等。这些数据通过API或其他公开来源收集,并经过清洗和标准化处理,以确保数据的准确性和一致性。
使用方法
用户可以通过访问数据集的各个字段来获取所需信息,例如通过'actions'字段查看法案的行动记录,或通过'amendments'字段查看修正案的详细信息。数据集支持多种查询和分析操作,适用于立法分析、政策研究、历史数据挖掘等多个领域。用户还可以利用数据集进行机器学习模型的训练,以预测法案的未来走向或分析立法趋势。
背景与挑战
背景概述
c4lliope/us-congress数据集聚焦于美国国会立法活动的详细记录,涵盖了从法案的提出到审议的各个环节。该数据集由c4lliope团队创建,旨在为研究者提供一个全面、结构化的数据资源,以便深入分析美国国会的立法过程、政策制定及其影响。通过包含法案的标题、摘要、行动记录、修正案、委员会活动等多维度信息,该数据集为政治学、法律研究和社会科学领域的学者提供了宝贵的研究素材。其创建时间虽未明确,但其丰富的内容和结构化设计显示了其在相关研究领域的重要性和影响力。
当前挑战
该数据集在构建过程中面临多重挑战。首先,数据来源的多样性和复杂性要求对大量非结构化数据进行清洗和结构化处理,以确保数据的准确性和一致性。其次,法案信息的动态更新和历史记录的完整性要求数据集能够持续更新并保持时效性。此外,数据集的规模和复杂性对存储和处理能力提出了较高要求,尤其是在处理大规模数据时,如何高效地进行数据检索和分析也是一个重要挑战。最后,确保数据隐私和安全,特别是在处理涉及个人和机构的敏感信息时,也是一个不容忽视的问题。
常用场景
经典使用场景
c4lliope/us-congress数据集的经典使用场景主要集中在政治学、法律研究和政策分析领域。该数据集详细记录了美国国会法案的各项信息,包括法案的标题、摘要、行动记录、修正案、委员会活动、共同提案人等,为研究者提供了丰富的文本和结构化数据。通过分析这些数据,研究者可以深入探讨法案的演变过程、立法动态以及政策制定的背后逻辑。
解决学术问题
该数据集解决了多个学术研究中的关键问题,特别是在立法过程的透明度和政策分析方面。通过提供详细的法案信息和历史记录,研究者能够分析立法效率、党派影响、以及政策变化对社会的影响。此外,数据集还支持对立法文本的自然语言处理研究,如文本分类、情感分析和主题建模,从而推动法律文本分析技术的发展。
实际应用
在实际应用中,c4lliope/us-congress数据集被广泛用于政府决策支持系统、政策咨询服务以及法律研究工具的开发。例如,政府机构可以利用该数据集追踪法案的进展,评估立法效果;咨询公司则可以通过分析历史法案数据,为客户提供政策建议。此外,教育机构和研究机构也利用该数据集进行教学和研究,提升公众对立法过程的理解。
数据集最近研究
最新研究方向
在政治与法律领域,c4lliope/us-congress数据集的最新研究方向主要集中在利用自然语言处理技术分析和预测美国国会法案的演变趋势及其对政策制定的影响。该数据集通过详细记录法案的各个阶段,包括提案、修订、投票等,为研究者提供了丰富的文本和结构化数据资源。前沿研究不仅关注法案文本的语义分析,还探索了如何通过机器学习模型预测法案的通过概率及其潜在的社会经济影响。此外,该数据集的开放性也促进了跨学科研究,如政治学与计算机科学的结合,为政策分析提供了新的工具和视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作