five

hugosousa/ProfessorHeidelTime

收藏
Hugging Face2023-11-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hugosousa/ProfessorHeidelTime
下载链接
链接失效反馈
官方服务:
资源简介:
Professor HeidelTime数据集是一个多语言语料库,使用HeidelTime时间标记器进行弱标注。该数据集包含六种语言(英语、意大利语、德语、西班牙语、法语和葡萄牙语),每种语言的语料库都有详细的文档数量、时间范围、词条数量和时间表达式数量。数据集的任务类别包括词性标注、命名实体识别和解析,适用于时间表达式的识别、分类和提取任务。
提供机构:
hugosousa
原始信息汇总

Professor HeidelTime 数据集概述

基本信息

  • 标注创建者: 机器生成
  • 语言: 英语、法语、葡萄牙语、德语、意大利语、西班牙语
  • 语言创建者: 发现
  • 许可证: MIT
  • 多语言性: 多语言
  • 大小类别: 100K<n<1M
  • 源数据集: 原始数据
  • 标签: Timex, Timexs, Temporal Expression, Temporal Expressions, Temporal Information, Timex Identification, Timex Classification, Timex Extraction
  • 任务类别: 标记分类
  • 任务ID: 解析、词性标注、命名实体识别

配置详情

  • 葡萄牙语: 数据文件为 portuguese.json
  • 英语: 数据文件为 english.json
  • 法语: 数据文件为 french.json
  • 意大利语: 数据文件为 italian.json
  • 西班牙语: 数据文件为 spanish.json
  • 德语: 数据文件为 german.json

语料库详情

数据集 语言 文档数量 起始日期 结束日期 词数 时间表达式数量
All the News 2.0 英语 24,642 2016-01-01 2020-04-02 18,755,616 254,803
Italian Crime News 意大利语 9,619 2011-01-01 2021-12-31 3,296,898 58,823
German News Dataset 德语 33,266 2003-01-01 2022-12-31 21,617,888 348,011
ElMundo News 西班牙语 19,095 2005-12-02 2021-10-18 12,515,410 194,043
French Financial News 法语 24,293 2017-10-19 2021-03-19 1,673,053 83,431
Público News 葡萄牙语 27,154 2000-11-14 2002-03-20 5,929,377 111,810
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作