hugosousa/ProfessorHeidelTime
收藏Hugging Face2023-11-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hugosousa/ProfessorHeidelTime
下载链接
链接失效反馈官方服务:
资源简介:
Professor HeidelTime数据集是一个多语言语料库,使用HeidelTime时间标记器进行弱标注。该数据集包含六种语言(英语、意大利语、德语、西班牙语、法语和葡萄牙语),每种语言的语料库都有详细的文档数量、时间范围、词条数量和时间表达式数量。数据集的任务类别包括词性标注、命名实体识别和解析,适用于时间表达式的识别、分类和提取任务。
提供机构:
hugosousa
原始信息汇总
Professor HeidelTime 数据集概述
基本信息
- 标注创建者: 机器生成
- 语言: 英语、法语、葡萄牙语、德语、意大利语、西班牙语
- 语言创建者: 发现
- 许可证: MIT
- 多语言性: 多语言
- 大小类别: 100K<n<1M
- 源数据集: 原始数据
- 标签: Timex, Timexs, Temporal Expression, Temporal Expressions, Temporal Information, Timex Identification, Timex Classification, Timex Extraction
- 任务类别: 标记分类
- 任务ID: 解析、词性标注、命名实体识别
配置详情
- 葡萄牙语: 数据文件为
portuguese.json - 英语: 数据文件为
english.json - 法语: 数据文件为
french.json - 意大利语: 数据文件为
italian.json - 西班牙语: 数据文件为
spanish.json - 德语: 数据文件为
german.json
语料库详情
| 数据集 | 语言 | 文档数量 | 起始日期 | 结束日期 | 词数 | 时间表达式数量 |
|---|---|---|---|---|---|---|
| All the News 2.0 | 英语 | 24,642 | 2016-01-01 | 2020-04-02 | 18,755,616 | 254,803 |
| Italian Crime News | 意大利语 | 9,619 | 2011-01-01 | 2021-12-31 | 3,296,898 | 58,823 |
| German News Dataset | 德语 | 33,266 | 2003-01-01 | 2022-12-31 | 21,617,888 | 348,011 |
| ElMundo News | 西班牙语 | 19,095 | 2005-12-02 | 2021-10-18 | 12,515,410 | 194,043 |
| French Financial News | 法语 | 24,293 | 2017-10-19 | 2021-03-19 | 1,673,053 | 83,431 |
| Público News | 葡萄牙语 | 27,154 | 2000-11-14 | 2002-03-20 | 5,929,377 | 111,810 |
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



