placingholocaust/spacy-project
收藏Hugging Face2024-05-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/placingholocaust/spacy-project
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Placing the Holocaust Weasel (spacy) Project的一部分,旨在通过分析大屠杀幸存者的证词,识别出命名和未命名的地点。项目创建了一个包含九个地点类别的分类法,并训练了模型来注释977份来自美国大屠杀纪念博物馆的战后证词转录本。最终目标是创建一个开放访问的网站,包含证词搜索引擎和地图工具(预计2024年夏季推出)。通过发布数据,希望其他人能够基于该方法论,分析自己的语料库,无论是与大屠杀相关还是无关,并开发自己的证词转录本分析方法。
该数据集是Placing the Holocaust Weasel (spacy) Project的一部分,旨在通过分析大屠杀幸存者的证词,识别出命名和未命名的地点。项目创建了一个包含九个地点类别的分类法,并训练了模型来注释977份来自美国大屠杀纪念博物馆的战后证词转录本。最终目标是创建一个开放访问的网站,包含证词搜索引擎和地图工具(预计2024年夏季推出)。通过发布数据,希望其他人能够基于该方法论,分析自己的语料库,无论是与大屠杀相关还是无关,并开发自己的证词转录本分析方法。
提供机构:
placingholocaust
原始信息汇总
数据集概述
数据集名称
- Placing the Holocaust Weasel (spacy) Project
数据集内容
- 包含977份来自美国大屠杀纪念馆的战后证言记录。
- 用于训练和评估4种不同spaCy模型的数据和Python脚本。
- 包括所有版本0.0.1的指标。
数据集用途
- 用于分析大屠杀证言中的地点信息,包括已命名和未命名的地点。
- 旨在通过开放访问网站提供证言记录的搜索和地图工具(预计2024年夏季推出)。
数据集标签
- BUILDING
- COUNTRY, CONTINENT, OR LARGER
- ENVIRONMENTAL FEATURE
- IMAGINARY OR OTHER
- INTERIOR SPACE
- LANDSCAPE FEATURE
- OBJECTS
- POPULATED PLACE
- REGION
模型性能指标
总体性能
| 模型 | 精确度 | 召回率 | F-Score |
|---|---|---|---|
| Small | 94.1% | 89.2% | 91.6% |
| Medium | 94.0% | 90.5% | 92.2% |
| Large | 94.1% | 91.7% | 92.9% |
| Transformer | 93.6% | 91.6% | 92.6% |
按标签性能
| 模型 | 标签 | 精确度 | 召回率 | F-Score |
|---|---|---|---|---|
| Small | BUILDING | 94.7% | 90.2% | 92.4% |
| Medium | BUILDING | 95.2% | 92.8% | 94.0% |
| Large | BUILDING | 94.8% | 93.2% | 94.0% |
| Transformer | BUILDING | 94.3% | 94.2% | 94.3% |
| Small | COUNTRY | 97.6% | 94.6% | 96.1% |
| Medium | COUNTRY | 96.5% | 96.3% | 96.4% |
| Large | COUNTRY | 97.7% | 96.8% | 97.2% |
| Transformer | COUNTRY | 96.6% | 96.8% | 96.7% |
| Small | ENV_FEATURES | 86.6% | 81.2% | 83.8% |
| Medium | ENV_FEATURES | 86.3% | 79.1% | 82.5% |
| Large | ENV_FEATURES | 77.5% | 90.1% | 83.3% |
| Transformer | ENV_FEATURES | 85.1% | 86.9% | 86.0% |
| Small | INT_SPACE | 93.8% | 85.9% | 89.6% |
| Medium | INT_SPACE | 93.9% | 91.3% | 92.6% |
| Large | INT_SPACE | 92.4% | 93.8% | 93.1% |
| Transformer | INT_SPACE | 94.6% | 91.8% | 93.2% |
| Small | NPIP | 92.7% | 86.4% | 89.4% |
| Medium | NPIP | 94.5% | 82.4% | 88.0% |
| Large | NPIP | 92.7% | 86.6% | 89.6% |
| Transformer | NPIP | 94.8% | 83.0% | 88.5% |
| Small | POPULATED_PLACE | 94.0% | 90.6% | 92.3% |
| Medium | POPULATED_PLACE | 93.0% | 91.2% | 92.1% |
| Large | POPULATED_PLACE | 95.2% | 90.4% | 92.7% |
| Transformer | POPULATED_PLACE | 92.1% | 91.3% | 91.7% |
| Small | REGION | 84.4% | 68.4% | 75.6% |
| Medium | REGION | 81.4% | 75.8% | 78.5% |
| Large | REGION | 83.0% | 76.8% | 79.8% |
| Transformer | REGION | 81.2% | 68.4% | 74.3% |
| Small | SPATIAL_OBJ | 96.0% | 90.0% | 92.9% |
| Medium | SPATIAL_OBJ | 95.2% | 93.8% | 94.5% |
| Large | SPATIAL_OBJ | 95.3% | 95.5% | 95.4% |
| Transformer | SPATIAL_OBJ | 96.3% | 92.8% | 94.5% |
数据集许可证
- MIT



