APHIS Inspection Reports
收藏github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/data-liberation-project/aphis-inspection-reports
下载链接
链接失效反馈官方服务:
资源简介:
该数据集收集了美国农业部动物和植物健康检查服务(APHIS)发布的所有公开检查报告的数据和PDF文件,包括检查日期、被检查者、违规次数等元数据,以及从PDF中解析出的检查类型、引用列表、完整报告文本和被检查物种列表等信息。
This dataset compiles all publicly available inspection reports and their corresponding PDF files issued by the Animal and Plant Health Inspection Service (APHIS) of the U.S. Department of Agriculture. It includes metadata such as the inspection date, the inspected entity, and the number of violations, along with information extracted from the PDFs, including the type of inspection, citation lists, the full text of the reports, and lists of species inspected.
创建时间:
2022-12-15
原始信息汇总
数据集概述
数据集来源与目的
本数据集由Data Liberation Project和Big Local News合作,旨在收集和提取美国农业部动物与植物健康检查服务局(APHIS)发布的所有公开检查报告数据。
收集的数据内容
- 检查元数据:包括检查日期、被检查者、违规次数等。
- 从PDF中解析的数据:如检查类型、引用的法规列表、完整报告文本、被检查物种列表等。
- 检查报告PDF:直接从APHIS检查门户链接获取。
提供的数据资源
- CSV文件:包含所有当前可用的检查数据,包括核心元数据、物种级别动物检查计数、每个检查的引用以及完整报告文本。
- PDF文件:所有检查报告的PDF文件,可通过DocumentCloud搜索。
- RSS订阅:提供最新发现的检查和具有关键引用的检查的国家和州级列表。
数据字典
核心检查数据
web_certNumber:APHIS证书编号。web_customerNumber:APHIS客户编号。web_inspectionDate:APHIS检查日期。web_legalName:被检查许可证持有者的名称。web_siteName:被检查地点的名称。web_reportLink:检查报告PDF的URL。hash_id:PDF URL的SHA1哈希标识。pdf_insp_id:检查报告上的标识符。pdf_layout:报告布局类型。pdf_customer_id:报告中的客户ID。pdf_customer_name:报告中的客户名称。pdf_customer_addr:报告中的客户地址。pdf_certificate:报告中的证书编号。pdf_site_id:报告中的地点标识符。pdf_site_name:报告中的地点名称。pdf_insp_type:报告中的检查类型。pdf_date:报告中的检查日期。pdf_report_date:报告完成日期。pdf_animals_total:报告中检查的动物总数。doccloud_url:上传到DocumentCloud的PDF文件URL。licenseType:许可证类型。customer_state:客户所在州。
被检查物种数据
hash_id:检查报告PDF的hash_id。count:物种计数。scientific:物种的科学名称。common:物种的常用名称。
引用数据
hash_id:检查报告PDF的hash_id。code:引用的法规代码。desc:法规描述。kind:发现类型(直接、关键或无)。repeat:是否为重复发现。narrative:检查员的发现文本。
完整报告文本
hash_id:检查报告PDF的hash_id。narrative:报告文本。
注意事项
- 检查报告并非立即通过APHIS门户提供,大多数报告在检查日期后约四周发布,但有些报告发布时间更晚。
- APHIS门户有时会错误地链接检查条目到错误的PDF。
搜集汇总
数据集介绍

构建方式
该数据集由Data Liberation Project和Big Local News合作构建,旨在收集并提取美国农业部动物和植物健康检查服务(APHIS)发布的所有公开检查报告。构建过程包括从APHIS检查门户网站抓取数据,解析PDF文件中的附加信息,并将这些数据上传和合并。具体步骤在METHODOLOGY.md文件中有详细描述。
使用方法
用户可以通过下载CSV文件来访问核心检查数据、物种级别的动物检查计数、每次检查的引用列表以及报告的全文。此外,所有检查报告的PDF文件也可直接下载或通过DocumentCloud项目进行搜索。RSS订阅源还提供了最新发现和具有关键引用的检查报告的更新信息。
背景与挑战
背景概述
APHIS Inspection Reports数据集是由Data Liberation Project和Big Local News合作创建的,旨在收集和提取美国农业部动物和植物健康检查服务(APHIS)发布的所有公开检查报告。该数据集的核心研究问题围绕动物福利和合规性检查,涵盖了从2014年至今的检查记录。主要研究人员和机构通过自动化工具从APHIS的公开门户中抓取数据,并进行详细的解析和处理。这一数据集对动物福利研究、政策制定以及公众监督具有重要影响,为相关领域的学者和政策制定者提供了宝贵的数据资源。
当前挑战
APHIS Inspection Reports数据集在构建过程中面临多项挑战。首先,数据抓取和解析的自动化过程复杂,需要处理多种PDF格式和数据不一致问题。其次,检查报告的发布时间不一致,部分报告延迟发布,影响数据的实时性和完整性。此外,数据集中的某些链接可能指向错误的PDF文件,增加了数据验证的难度。这些挑战不仅影响了数据的质量和可用性,也对后续的数据分析和应用提出了更高的要求。
常用场景
经典使用场景
APHIS Inspection Reports数据集的经典使用场景主要集中在动物福利和合规性检查的分析与监控。通过该数据集,研究人员和政策制定者可以深入了解美国农业部动物和植物健康检查服务(APHIS)对各类动物设施的定期检查情况。这些检查包括预许可检查、常规合规检查以及基于公众投诉的专项检查。数据集提供了详细的检查元数据、PDF解析数据以及完整的检查报告文本,使得用户能够全面评估动物福利标准的执行情况,识别潜在的违规行为,并提出改进建议。
解决学术问题
APHIS Inspection Reports数据集解决了多个重要的学术研究问题。首先,它为动物福利研究提供了丰富的实证数据,帮助学者们评估现行法规的有效性和不足之处。其次,通过对检查结果的长期跟踪和分析,研究人员可以识别出动物福利问题的趋势和模式,从而为政策制定提供科学依据。此外,该数据集还支持跨学科研究,如法律、公共卫生和环境科学,促进了对动物福利与人类健康之间关系的深入理解。
实际应用
在实际应用中,APHIS Inspection Reports数据集被广泛用于动物福利监控和合规性管理。动物园、研究机构和养殖场等实体可以利用该数据集进行自我检查和改进,确保其运营符合联邦标准。新闻媒体和非政府组织则利用这些数据进行公众监督,揭露和报道动物福利问题,推动社会对动物权益的关注。此外,政府机构可以利用该数据集进行政策评估和调整,确保动物福利法规的实施效果。
数据集最近研究
最新研究方向
在动物福利和公共卫生领域,APHIS Inspection Reports数据集的最新研究方向主要集中在利用先进的数据分析技术,如自然语言处理和机器学习,来解析和理解复杂的检查报告。这些研究旨在通过自动化手段提取关键信息,如违规类型、频率和严重性,从而为政策制定者和监管机构提供更精确的决策支持。此外,研究者们还在探索如何利用地理信息系统(GIS)技术,将检查数据与地理位置信息结合,以识别和预测潜在的动物福利问题区域。这些前沿研究不仅提升了数据的可操作性,还为公众和相关利益方提供了更为透明和及时的监管信息。
以上内容由遇见数据集搜集并总结生成



