five

wjbmattingly/ushmm-testimonies

收藏
Hugging Face2023-08-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wjbmattingly/ushmm-testimonies
下载链接
链接失效反馈
官方服务:
资源简介:
USHMM英语口述证词数据集包含大约1000份美国大屠杀纪念博物馆(USHMM)收集的英语口述证词,这些证词主要来自20世纪末和21世纪初。数据集通过Tesseract从PDF转换为原始文本,并使用Python脚本进行后处理,将其转换为对话片段。数据集用于文本分类、命名实体识别和跨度分类等任务。证词由非英语母语者提供,因此可能包含外语词汇和短语。数据集未分割为训练、测试或验证集。
提供机构:
wjbmattingly
原始信息汇总

USHMM English Oral Testimonies Dataset 概述

数据集描述

数据集总结

  • 类型: 约1,000份英语口述证言
  • 来源: 美国大屠杀纪念博物馆(USHMM)
  • 时间: 20世纪末至21世纪初
  • 处理: 使用Tesseract从PDF转换为文本,并使用Python脚本处理为对话片段
  • 用途: 文本分类、命名实体识别、范围分类

语言

  • 主要语言: 英语
  • 特点: 由非英语母语者提供,可能包含外语词汇和短语

数据集结构

数据字段

  • rg: 字符串,USHMM用于识别特定项目的RG编号
  • sequence: 整数,对话行的唯一ID
  • text: 字符串,实际对话内容
  • category: 字符串,可以是问题或答案

数据分割

  • 分割情况: 未分割为训练、测试或验证集

数据集创建

采集理由

  • 目的: 使证言更易于用于机器学习任务,是首个公开的大屠杀口述证言数据集

源数据

  • 原始数据: 来自USHMM的口述证言
  • 数据转换: 使用Tesseract OCR技术从PDF转换为文本

个人信息和敏感信息

  • 内容: 包含大屠杀幸存者的个人叙述和证言,可能包含敏感信息

使用数据集的考虑

社会影响

  • 价值: 提供大屠杀幸存者经历的宝贵见解,支持历史研究和自然语言处理任务

偏见讨论

  • 主观性: 基于个人证言,可能包含个人偏见

其他已知限制

  • OCR错误: 由于使用Tesseract转换,可能存在OCR错误
  • 语言准确性: 由非英语母语者提供,可能存在英语不精确和外语词汇

附加信息

数据集策展人

  • 策展人: William J.B. Mattingly

许可证信息

  • 许可证: MIT

引用信息

  • 引用格式: USHMM Oral Testimonies Dataset. 策展人: William J.B. Mattingly.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作