wjbmattingly/ushmm-testimonies

Name: wjbmattingly/ushmm-testimonies
Creator: wjbmattingly
Published: 2023-08-09 13:47:18
License: 暂无描述

Hugging Face2023-08-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wjbmattingly/ushmm-testimonies

下载链接

链接失效反馈

官方服务：

资源简介：

USHMM英语口述证词数据集包含大约1000份美国大屠杀纪念博物馆（USHMM）收集的英语口述证词，这些证词主要来自20世纪末和21世纪初。数据集通过Tesseract从PDF转换为原始文本，并使用Python脚本进行后处理，将其转换为对话片段。数据集用于文本分类、命名实体识别和跨度分类等任务。证词由非英语母语者提供，因此可能包含外语词汇和短语。数据集未分割为训练、测试或验证集。

提供机构：

wjbmattingly

原始信息汇总

USHMM English Oral Testimonies Dataset 概述

数据集描述

数据集总结

类型: 约1,000份英语口述证言
来源: 美国大屠杀纪念博物馆（USHMM）
时间: 20世纪末至21世纪初
处理: 使用Tesseract从PDF转换为文本，并使用Python脚本处理为对话片段
用途: 文本分类、命名实体识别、范围分类

语言

主要语言: 英语
特点: 由非英语母语者提供，可能包含外语词汇和短语

数据集结构

数据字段

rg: 字符串，USHMM用于识别特定项目的RG编号
sequence: 整数，对话行的唯一ID
text: 字符串，实际对话内容
category: 字符串，可以是问题或答案

数据分割

分割情况: 未分割为训练、测试或验证集

数据集创建

采集理由

目的: 使证言更易于用于机器学习任务，是首个公开的大屠杀口述证言数据集

源数据

原始数据: 来自USHMM的口述证言
数据转换: 使用Tesseract OCR技术从PDF转换为文本

个人信息和敏感信息

内容: 包含大屠杀幸存者的个人叙述和证言，可能包含敏感信息

使用数据集的考虑

社会影响

价值: 提供大屠杀幸存者经历的宝贵见解，支持历史研究和自然语言处理任务

偏见讨论

主观性: 基于个人证言，可能包含个人偏见

其他已知限制

OCR错误: 由于使用Tesseract转换，可能存在OCR错误
语言准确性: 由非英语母语者提供，可能存在英语不精确和外语词汇

附加信息

数据集策展人

策展人: William J.B. Mattingly

许可证信息

许可证: MIT

引用信息

引用格式: USHMM Oral Testimonies Dataset. 策展人: William J.B. Mattingly.

5,000+

优质数据集

54 个

任务类型

进入经典数据集