pile-of-law/eoir_privacy

Name: pile-of-law/eoir_privacy
Creator: pile-of-law
Published: 2022-07-07 08:44:32
License: 暂无描述

Hugging Face2022-07-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pile-of-law/eoir_privacy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集模拟了EOIR（美国移民审查执行办公室）决策的隐私标准，旨在帮助学习上下文数据清理规则，以匿名化爬取的语言数据中的潜在敏感内容。数据集包含文本和标签，标签指示是否使用假名来填充掩码。数据集分为训练集（75%）和验证集（25%）。数据来源于美国移民审查执行办公室的决策，注释过程由EOIR法官完成，使用正则表达式确定是否使用了假名。数据集可能包含敏感内容，尽管法院已经对敏感数据进行了过滤，但仍可能涉及敏感话题。使用该数据集时，需注意其可能存在的偏见，特别是由于其来源于美国移民法院。数据集采用CC-BY-NC许可。

yaml 语言创建方式: - 外部采集语言: - 英语许可协议: - CC BY-NC-SA 4.0 多语言属性: - 单语言数据集名称: - eoir_privacy 源数据集: - 无任务类别: - 文本分类数据集查看器: - 禁用 # eoir_privacy 数据集卡片 ## 目录 - [数据集概述](#数据集概述) - [数据集摘要](#数据集摘要) - [支持任务与排行榜](#支持任务与排行榜) - [语言](#语言) - [数据集结构](#数据集结构) - [数据实例](#数据实例) - [数据字段](#数据字段) - [数据划分](#数据划分) - [数据集构建](#数据集构建) - [构建初衷](#构建初衷) - [源数据](#源数据) - [标注信息](#标注信息) - [个人与敏感信息](#个人与敏感信息) - [数据集使用注意事项](#数据集使用注意事项) - [数据集的社会影响](#数据集的社会影响) - [偏差讨论](#偏差讨论) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [数据集维护者](#数据集维护者) - [许可信息](#许可信息) - [引用信息](#引用信息) ## 数据集概述 - **主页**: [需补充更多信息] - **代码仓库**: [需补充更多信息] - **相关论文**: [需补充更多信息] - **排行榜**: [需补充更多信息] - **联系人**: [需补充更多信息] ### 数据集摘要本数据集模拟美国移民审查执行办公室（Executive Office for Immigration Review, EOIR）的隐私标准，旨在帮助学习上下文数据脱敏规则，以对爬取得到的语言数据中潜在的敏感上下文进行匿名化处理。 ### 语言英语 ## 数据集结构 ### 数据实例 json { "text": "掩码段落", "label": "填充掩码时是否应使用假名" } ### 数据划分训练集占比75%，验证集占比25% ## 数据集构建 ### 构建初衷本数据集模拟美国移民审查执行办公室（EOIR）的隐私标准，旨在帮助学习上下文数据脱敏规则，以对爬取得到的语言数据中潜在的敏感上下文进行匿名化处理。 ### 源数据 #### 初始数据收集与规范化我们爬取了EOIR的相关数据，随后在段落级别进行过滤，并将所有提及的被申请人、申请人或姓名替换为[MASK]标记（Token）。接下来我们将判断该案件是否使用了假名。 #### 源语言的生产者是谁？美国移民审查执行办公室（Executive Office for Immigration Review, EOIR） ### 标注信息 #### 标注流程标注（即假名使用决策）由EOIR法庭作出。我们通过正则表达式（Regular Expression）来识别是否使用假名指代申请人或被申请人。 #### 标注者为谁？ EOIR法庭法官 ### 个人与敏感信息本数据集可能涉及敏感上下文，尽管相关法庭已对敏感数据进行了过滤处理，但仍有可能存在讨论敏感话题的内容。 ## 数据集使用注意事项 ### 数据集的社会影响本数据集旨在用于学习上下文隐私规则，以帮助过滤私有/敏感数据，但它本身也蕴含了其来源的美国移民法庭所存在的偏差。我们建议使用者在学习更多上下文隐私规则时，不应局限于本数据集。 ### 偏差讨论由于本数据集源自美国移民法庭，因此可能存在一定偏差。 ### 其他已知局限性无 ## 附加信息 ### 数据集维护者 [需补充更多信息] ### 许可信息 CC-BY-NC ### 引用信息 bibtex @misc{hendersonkrass2022pileoflaw, url = {https://arxiv.org/abs/2207.00220}, author = {Henderson, Peter and Krass, Mark S. and Zheng, Lucia and Guha, Neel and Manning, Christopher D. and Jurafsky, Dan and Ho, Daniel E.}, title = {法律语料库：从法律文本中学习负责任的数据过滤方法与256GB开源法律数据集}, publisher = {arXiv}, year = {2022} }

提供机构：

pile-of-law

原始信息汇总

数据集概述

数据集描述

数据集总结

目的: 该数据集旨在模拟EOIR决策的隐私标准，帮助学习上下文数据净化规则，以匿名化爬取语言数据中的潜在敏感上下文。

支持的任务

任务类型: 文本分类

语言

语言: 英语

数据集结构

数据实例

结构: 每个实例包含一个被屏蔽的段落和标签，指示是否在填充屏蔽时使用假名。
示例:

{ "text": "masked paragraph", "label": "whether to use a pseudonym in filling masks" }

数据分割

分割比例: 训练集占75%，验证集占25%。

数据集创建

采集与规范化

来源: 从U.S. Executive Office for Immigration Review（EOIR）网站爬取。
处理: 在段落级别过滤，并用[MASK]标记替换所有提及的申请人、申请者或名称。

注释

注释过程: 使用正则表达式确定是否使用假名来指代申请人/申请者。
注释者: EOIR法官。

个人和敏感信息

敏感性: 可能包含敏感上下文，法院已对敏感数据进行过滤，但仍可能讨论敏感话题。

使用数据的考虑

社会影响

影响: 旨在学习上下文隐私规则以帮助过滤私人/敏感数据，但本身编码了数据来源法院的偏见。

偏见讨论

偏见来源: 数据可能因源自美国移民法院而存在偏见。

附加信息

许可证信息

许可证: CC-BY-NC-SA-4.0

引用信息

@misc{hendersonkrass2022pileoflaw, url = {https://arxiv.org/abs/2207.00220}, author = {Henderson, Peter and Krass, Mark S. and Zheng, Lucia and Guha, Neel and Manning, Christopher D. and Jurafsky, Dan and Ho, Daniel E.}, title = {Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset}, publisher = {arXiv}, year = {2022} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集