five

pythainlp/han-corf-dataset-v1.0

收藏
Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/han-corf-dataset-v1.0
下载链接
链接失效反馈
官方服务:
资源简介:
Han-Coref是一个旨在创建泰语共指消解系统的项目。该数据集包含了泰语文本、聚类、聚类字符串和来源等特征。数据集分为训练集、测试集和验证集,分别包含1039、149和150个样本。数据集的下载大小为618416字节,总大小为1553684字节。该数据集使用Creative Commons Attribution 3.0 Unported License许可证,并包含coreference-resolution、coreference和anaphora等标签。

Han-Coref是一个旨在创建泰语共指消解系统的项目。该数据集包含了泰语文本、聚类、聚类字符串和来源等特征。数据集分为训练集、测试集和验证集,分别包含1039、149和150个样本。数据集的下载大小为618416字节,总大小为1553684字节。该数据集使用Creative Commons Attribution 3.0 Unported License许可证,并包含coreference-resolution、coreference和anaphora等标签。
提供机构:
pythainlp
原始信息汇总

数据集概述

数据集名称

  • 名称: Han-Coref
  • 版本: 1.0

数据集特征

  • text: 文本,数据类型为字符串。
  • clusters: 聚类,数据类型为整数64。
  • clusters_strings: 聚类字符串,数据类型为字符串。
  • source: 来源,数据类型为字符串。

数据集分割

  • 训练集: 包含1039个样本,总大小为1185411字节。
  • 测试集: 包含149个样本,总大小为200945字节。
  • 验证集: 包含150个样本,总大小为167328字节。

数据集大小

  • 下载大小: 618416字节
  • 数据集总大小: 1553684字节

许可证

  • 许可证类型: Creative Commons Attribution 3.0 Unported License

标签

  • coreference-resolution
  • coreference
  • anaphora

语言

  • th

大小类别

  • 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作