wjbmattingly/ushmm-testimonies
收藏Hugging Face2023-08-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wjbmattingly/ushmm-testimonies
下载链接
链接失效反馈官方服务:
资源简介:
USHMM英语口述证词数据集包含大约1000份美国大屠杀纪念博物馆(USHMM)收集的英语口述证词,这些证词主要来自20世纪末和21世纪初。数据集通过Tesseract从PDF转换为原始文本,并使用Python脚本进行后处理,将其转换为对话片段。数据集用于文本分类、命名实体识别和跨度分类等任务。证词由非英语母语者提供,因此可能包含外语词汇和短语。数据集未分割为训练、测试或验证集。
提供机构:
wjbmattingly
原始信息汇总
USHMM English Oral Testimonies Dataset 概述
数据集描述
数据集总结
- 类型: 约1,000份英语口述证言
- 来源: 美国大屠杀纪念博物馆(USHMM)
- 时间: 20世纪末至21世纪初
- 处理: 使用Tesseract从PDF转换为文本,并使用Python脚本处理为对话片段
- 用途: 文本分类、命名实体识别、范围分类
语言
- 主要语言: 英语
- 特点: 由非英语母语者提供,可能包含外语词汇和短语
数据集结构
数据字段
- rg: 字符串,USHMM用于识别特定项目的RG编号
- sequence: 整数,对话行的唯一ID
- text: 字符串,实际对话内容
- category: 字符串,可以是问题或答案
数据分割
- 分割情况: 未分割为训练、测试或验证集
数据集创建
采集理由
- 目的: 使证言更易于用于机器学习任务,是首个公开的大屠杀口述证言数据集
源数据
- 原始数据: 来自USHMM的口述证言
- 数据转换: 使用Tesseract OCR技术从PDF转换为文本
个人信息和敏感信息
- 内容: 包含大屠杀幸存者的个人叙述和证言,可能包含敏感信息
使用数据集的考虑
社会影响
- 价值: 提供大屠杀幸存者经历的宝贵见解,支持历史研究和自然语言处理任务
偏见讨论
- 主观性: 基于个人证言,可能包含个人偏见
其他已知限制
- OCR错误: 由于使用Tesseract转换,可能存在OCR错误
- 语言准确性: 由非英语母语者提供,可能存在英语不精确和外语词汇
附加信息
数据集策展人
- 策展人: William J.B. Mattingly
许可证信息
- 许可证: MIT
引用信息
- 引用格式: USHMM Oral Testimonies Dataset. 策展人: William J.B. Mattingly.



