five

HebArabNlpProject/HebCo

收藏
Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HebArabNlpProject/HebCo
下载链接
链接失效反馈
官方服务:
资源简介:
该共指消解语料库是以色列国家NLP计划的一部分,由DDRND (Mafat)和以色列人类语言技术协会(IAHLT)共同开发。它是IAHLT命名实体数据集的扩展,主要用于希伯来语和阿拉伯语的命名实体共指消解。数据集包含来自不同来源的文章,如YouTube转录、Kul al-Arab新闻组织、Bagatz法院判决、Davar新闻组织等,这些文章已经被标注了实体,并进一步标注了命名实体的共指关系。数据集包括1个apc段落、2811个arb段落和9610个heb段落,这些段落已经标注了词素级别的提及跨度,并组装成具有实体类型的共指簇。

该共指消解语料库是以色列国家NLP计划的一部分,由DDRND (Mafat)和以色列人类语言技术协会(IAHLT)共同开发。它是IAHLT命名实体数据集的扩展,主要用于希伯来语和阿拉伯语的命名实体共指消解。数据集包含来自不同来源的文章,如YouTube转录、Kul al-Arab新闻组织、Bagatz法院判决、Davar新闻组织等,这些文章已经被标注了实体,并进一步标注了命名实体的共指关系。数据集包括1个apc段落、2811个arb段落和9610个heb段落,这些段落已经标注了词素级别的提及跨度,并组装成具有实体类型的共指簇。
提供机构:
HebArabNlpProject
原始信息汇总

数据集概述

简介

该数据集是一个针对希伯来语和阿拉伯语的命名实体共指语料库,是IAHLT命名实体数据集的扩展。目前,部分已标注实体的文章正在进一步标注实体共指。

语料库包含以下文章:

  • 1篇来自Youtube转录的apc文章(0%)
  • 201篇来自Kul al-Arab新闻组织的arb文章(96%)
  • 657篇来自Bagatz法院裁决的heb文章(3%)
  • 来自Davar新闻组织(75%)、Israel Hayom新闻组织(3%)、Knesset协议(1%)、Weizmann科普文章(4%)、希伯来语维基百科条目(11%)的heb文章

语料库包含1个段落(apc)、2811个段落(arb)和9610个段落(heb),已标注词素级提及跨度,并组合成带有实体类型的共指簇。

数据集文件

当前版本包括以下文件:

  • data/coref-4-rc7-heb-all:heb文章
  • data/coref-4-rc7-heb-unique:每个heb文章仅标注一次
  • data/coref-4-rc7-heb-iaa:用于IAA的heb文章

此外,所有文件均以人类可读形式提供(readable_data/*)。

格式

每篇文章是一个单独的json记录。部分文章已双重标注,以进行注释者间一致性研究,这些文章会出现多次。

jsonl结构如下: json { "text": "str", "user": "str", "metadata": { "source": "str", "doc_id": "str", ... }, "clusters": [ { "metadata": { "name": "str", "entity": "str" }, "mentions": [ (int, int, dict) ] } ] }

  • text字段包含原始文章的文本。
  • 顶级metadata字典提供文档级元数据,至少包括sourcedoc_id
  • clusters字段是一个JSON簇记录列表,每个包含metadatamentions字段。簇级metadata字段包含簇的名称和实体类型。mentions字段是一个三元组列表:文本的跨度索引加上一个元数据字典。本次发布中不提供提及级元数据。

并非所有簇都已标注实体类型;这将在未来的版本中完成。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作