pile-of-law/eoir_privacy
收藏Hugging Face2022-07-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pile-of-law/eoir_privacy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集模拟了EOIR(美国移民审查执行办公室)决策的隐私标准,旨在帮助学习上下文数据清理规则,以匿名化爬取的语言数据中的潜在敏感内容。数据集包含文本和标签,标签指示是否使用假名来填充掩码。数据集分为训练集(75%)和验证集(25%)。数据来源于美国移民审查执行办公室的决策,注释过程由EOIR法官完成,使用正则表达式确定是否使用了假名。数据集可能包含敏感内容,尽管法院已经对敏感数据进行了过滤,但仍可能涉及敏感话题。使用该数据集时,需注意其可能存在的偏见,特别是由于其来源于美国移民法院。数据集采用CC-BY-NC许可。
yaml
语言创建方式:
- 外部采集
语言:
- 英语
许可协议:
- CC BY-NC-SA 4.0
多语言属性:
- 单语言
数据集名称:
- eoir_privacy
源数据集:
- 无
任务类别:
- 文本分类
数据集查看器:
- 禁用
# eoir_privacy 数据集卡片
## 目录
- [数据集概述](#数据集概述)
- [数据集摘要](#数据集摘要)
- [支持任务与排行榜](#支持任务与排行榜)
- [语言](#语言)
- [数据集结构](#数据集结构)
- [数据实例](#数据实例)
- [数据字段](#数据字段)
- [数据划分](#数据划分)
- [数据集构建](#数据集构建)
- [构建初衷](#构建初衷)
- [源数据](#源数据)
- [标注信息](#标注信息)
- [个人与敏感信息](#个人与敏感信息)
- [数据集使用注意事项](#数据集使用注意事项)
- [数据集的社会影响](#数据集的社会影响)
- [偏差讨论](#偏差讨论)
- [其他已知局限性](#其他已知局限性)
- [附加信息](#附加信息)
- [数据集维护者](#数据集维护者)
- [许可信息](#许可信息)
- [引用信息](#引用信息)
## 数据集概述
- **主页**: [需补充更多信息]
- **代码仓库**: [需补充更多信息]
- **相关论文**: [需补充更多信息]
- **排行榜**: [需补充更多信息]
- **联系人**: [需补充更多信息]
### 数据集摘要
本数据集模拟美国移民审查执行办公室(Executive Office for Immigration Review, EOIR)的隐私标准,旨在帮助学习上下文数据脱敏规则,以对爬取得到的语言数据中潜在的敏感上下文进行匿名化处理。
### 语言
英语
## 数据集结构
### 数据实例
json
{
"text": "掩码段落",
"label": "填充掩码时是否应使用假名"
}
### 数据划分
训练集占比75%,验证集占比25%
## 数据集构建
### 构建初衷
本数据集模拟美国移民审查执行办公室(EOIR)的隐私标准,旨在帮助学习上下文数据脱敏规则,以对爬取得到的语言数据中潜在的敏感上下文进行匿名化处理。
### 源数据
#### 初始数据收集与规范化
我们爬取了EOIR的相关数据,随后在段落级别进行过滤,并将所有提及的被申请人、申请人或姓名替换为[MASK]标记(Token)。接下来我们将判断该案件是否使用了假名。
#### 源语言的生产者是谁?
美国移民审查执行办公室(Executive Office for Immigration Review, EOIR)
### 标注信息
#### 标注流程
标注(即假名使用决策)由EOIR法庭作出。我们通过正则表达式(Regular Expression)来识别是否使用假名指代申请人或被申请人。
#### 标注者为谁?
EOIR法庭法官
### 个人与敏感信息
本数据集可能涉及敏感上下文,尽管相关法庭已对敏感数据进行了过滤处理,但仍有可能存在讨论敏感话题的内容。
## 数据集使用注意事项
### 数据集的社会影响
本数据集旨在用于学习上下文隐私规则,以帮助过滤私有/敏感数据,但它本身也蕴含了其来源的美国移民法庭所存在的偏差。我们建议使用者在学习更多上下文隐私规则时,不应局限于本数据集。
### 偏差讨论
由于本数据集源自美国移民法庭,因此可能存在一定偏差。
### 其他已知局限性
无
## 附加信息
### 数据集维护者
[需补充更多信息]
### 许可信息
CC-BY-NC
### 引用信息
bibtex
@misc{hendersonkrass2022pileoflaw,
url = {https://arxiv.org/abs/2207.00220},
author = {Henderson, Peter and Krass, Mark S. and Zheng, Lucia and Guha, Neel and Manning, Christopher D. and Jurafsky, Dan and Ho, Daniel E.},
title = {法律语料库:从法律文本中学习负责任的数据过滤方法与256GB开源法律数据集},
publisher = {arXiv},
year = {2022}
}
提供机构:
pile-of-law
原始信息汇总
数据集概述
数据集描述
数据集总结
- 目的: 该数据集旨在模拟EOIR决策的隐私标准,帮助学习上下文数据净化规则,以匿名化爬取语言数据中的潜在敏感上下文。
支持的任务
- 任务类型: 文本分类
语言
- 语言: 英语
数据集结构
数据实例
-
结构: 每个实例包含一个被屏蔽的段落和标签,指示是否在填充屏蔽时使用假名。
-
示例:
{ "text": "masked paragraph", "label": "whether to use a pseudonym in filling masks" }
数据分割
- 分割比例: 训练集占75%,验证集占25%。
数据集创建
采集与规范化
- 来源: 从U.S. Executive Office for Immigration Review(EOIR)网站爬取。
- 处理: 在段落级别过滤,并用[MASK]标记替换所有提及的申请人、申请者或名称。
注释
- 注释过程: 使用正则表达式确定是否使用假名来指代申请人/申请者。
- 注释者: EOIR法官。
个人和敏感信息
- 敏感性: 可能包含敏感上下文,法院已对敏感数据进行过滤,但仍可能讨论敏感话题。
使用数据的考虑
社会影响
- 影响: 旨在学习上下文隐私规则以帮助过滤私人/敏感数据,但本身编码了数据来源法院的偏见。
偏见讨论
- 偏见来源: 数据可能因源自美国移民法院而存在偏见。
附加信息
许可证信息
- 许可证: CC-BY-NC-SA-4.0
引用信息
@misc{hendersonkrass2022pileoflaw, url = {https://arxiv.org/abs/2207.00220}, author = {Henderson, Peter and Krass, Mark S. and Zheng, Lucia and Guha, Neel and Manning, Christopher D. and Jurafsky, Dan and Ho, Daniel E.}, title = {Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset}, publisher = {arXiv}, year = {2022} }



