five

placingholocaust/spacy-project

收藏
Hugging Face2024-05-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/placingholocaust/spacy-project
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Placing the Holocaust Weasel (spacy) Project的一部分,旨在通过分析大屠杀幸存者的证词,识别出命名和未命名的地点。项目创建了一个包含九个地点类别的分类法,并训练了模型来注释977份来自美国大屠杀纪念博物馆的战后证词转录本。最终目标是创建一个开放访问的网站,包含证词搜索引擎和地图工具(预计2024年夏季推出)。通过发布数据,希望其他人能够基于该方法论,分析自己的语料库,无论是与大屠杀相关还是无关,并开发自己的证词转录本分析方法。

该数据集是Placing the Holocaust Weasel (spacy) Project的一部分,旨在通过分析大屠杀幸存者的证词,识别出命名和未命名的地点。项目创建了一个包含九个地点类别的分类法,并训练了模型来注释977份来自美国大屠杀纪念博物馆的战后证词转录本。最终目标是创建一个开放访问的网站,包含证词搜索引擎和地图工具(预计2024年夏季推出)。通过发布数据,希望其他人能够基于该方法论,分析自己的语料库,无论是与大屠杀相关还是无关,并开发自己的证词转录本分析方法。
提供机构:
placingholocaust
原始信息汇总

数据集概述

数据集名称

  • Placing the Holocaust Weasel (spacy) Project

数据集内容

  • 包含977份来自美国大屠杀纪念馆的战后证言记录。
  • 用于训练和评估4种不同spaCy模型的数据和Python脚本。
  • 包括所有版本0.0.1的指标。

数据集用途

  • 用于分析大屠杀证言中的地点信息,包括已命名和未命名的地点。
  • 旨在通过开放访问网站提供证言记录的搜索和地图工具(预计2024年夏季推出)。

数据集标签

  • BUILDING
  • COUNTRY, CONTINENT, OR LARGER
  • ENVIRONMENTAL FEATURE
  • IMAGINARY OR OTHER
  • INTERIOR SPACE
  • LANDSCAPE FEATURE
  • OBJECTS
  • POPULATED PLACE
  • REGION

模型性能指标

总体性能

模型 精确度 召回率 F-Score
Small 94.1% 89.2% 91.6%
Medium 94.0% 90.5% 92.2%
Large 94.1% 91.7% 92.9%
Transformer 93.6% 91.6% 92.6%

按标签性能

模型 标签 精确度 召回率 F-Score
Small BUILDING 94.7% 90.2% 92.4%
Medium BUILDING 95.2% 92.8% 94.0%
Large BUILDING 94.8% 93.2% 94.0%
Transformer BUILDING 94.3% 94.2% 94.3%
Small COUNTRY 97.6% 94.6% 96.1%
Medium COUNTRY 96.5% 96.3% 96.4%
Large COUNTRY 97.7% 96.8% 97.2%
Transformer COUNTRY 96.6% 96.8% 96.7%
Small ENV_FEATURES 86.6% 81.2% 83.8%
Medium ENV_FEATURES 86.3% 79.1% 82.5%
Large ENV_FEATURES 77.5% 90.1% 83.3%
Transformer ENV_FEATURES 85.1% 86.9% 86.0%
Small INT_SPACE 93.8% 85.9% 89.6%
Medium INT_SPACE 93.9% 91.3% 92.6%
Large INT_SPACE 92.4% 93.8% 93.1%
Transformer INT_SPACE 94.6% 91.8% 93.2%
Small NPIP 92.7% 86.4% 89.4%
Medium NPIP 94.5% 82.4% 88.0%
Large NPIP 92.7% 86.6% 89.6%
Transformer NPIP 94.8% 83.0% 88.5%
Small POPULATED_PLACE 94.0% 90.6% 92.3%
Medium POPULATED_PLACE 93.0% 91.2% 92.1%
Large POPULATED_PLACE 95.2% 90.4% 92.7%
Transformer POPULATED_PLACE 92.1% 91.3% 91.7%
Small REGION 84.4% 68.4% 75.6%
Medium REGION 81.4% 75.8% 78.5%
Large REGION 83.0% 76.8% 79.8%
Transformer REGION 81.2% 68.4% 74.3%
Small SPATIAL_OBJ 96.0% 90.0% 92.9%
Medium SPATIAL_OBJ 95.2% 93.8% 94.5%
Large SPATIAL_OBJ 95.3% 95.5% 95.4%
Transformer SPATIAL_OBJ 96.3% 92.8% 94.5%

数据集许可证

  • MIT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作