five

psuwannapich/Z-coref-dataset

收藏
Hugging Face2024-07-10 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/psuwannapich/Z-coref-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Z-coref是一个专注于泰语共指消解和零代词解析的数据集。数据来源于Han-Coref,并重新标注了共指标签以包含零代词解析。数据集包含四列数据:原始文本、共指标签、提及类型和共指字符串。标注者是非语言学背景的泰语母语者,标注过程分为识别提及和链接共指提及两个步骤。

This is a dataset for Thai Coreference and Zero Pronoun Resolution. Raw textual data was retrieved from Han-Coref and re-annotated to include zero pronoun resolution in coreference tasks. The dataset includes four columns: text for raw text data, clusters for coreference labels, mention_type for the type of each mention, and clusters_strings for the string representation of each mention. The annotators are Thai native speakers who are not linguists, and the annotation process involves identifying mentions and linking coreferential mentions, focusing primarily on persons and organizations.
提供机构:
psuwannapich
原始信息汇总

Z-coref: Thai Coreference and Zero Pronoun Resolution

概述

该数据集用于泰语共指消解和零代词消解。原始文本数据来自Han-Coref。共指标签经过重新标注,包含零代词消解。

数据格式

数据集包含4列:

  1. text: 原始文本数据
  2. clusters: 共指标签,以嵌套列表格式表示。外部列表包含多个共指链列表,每个共指链列表包含起始和结束索引对,指向同一实体。
  3. mention_type: clusters中每个起始和结束索引对的类型。
  4. clusters_strings: clusters中每个起始和结束索引对的字符串表示。

标注者

标注者为非语言学家的泰语母语者。标注过程分为两个步骤:

  1. 识别提及。
  2. 链接共指提及。

标注者被要求标注提及,即指向特定组织的词语或短语。其他特定词语如物品或地点被忽略。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作