pythainlp/han-corf-dataset-v1.0
收藏Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/han-corf-dataset-v1.0
下载链接
链接失效反馈官方服务:
资源简介:
Han-Coref是一个旨在创建泰语共指消解系统的项目。该数据集包含了泰语文本、聚类、聚类字符串和来源等特征。数据集分为训练集、测试集和验证集,分别包含1039、149和150个样本。数据集的下载大小为618416字节,总大小为1553684字节。该数据集使用Creative Commons Attribution 3.0 Unported License许可证,并包含coreference-resolution、coreference和anaphora等标签。
Han-Coref是一个旨在创建泰语共指消解系统的项目。该数据集包含了泰语文本、聚类、聚类字符串和来源等特征。数据集分为训练集、测试集和验证集,分别包含1039、149和150个样本。数据集的下载大小为618416字节,总大小为1553684字节。该数据集使用Creative Commons Attribution 3.0 Unported License许可证,并包含coreference-resolution、coreference和anaphora等标签。
提供机构:
pythainlp
原始信息汇总
数据集概述
数据集名称
- 名称: Han-Coref
- 版本: 1.0
数据集特征
- text: 文本,数据类型为字符串。
- clusters: 聚类,数据类型为整数64。
- clusters_strings: 聚类字符串,数据类型为字符串。
- source: 来源,数据类型为字符串。
数据集分割
- 训练集: 包含1039个样本,总大小为1185411字节。
- 测试集: 包含149个样本,总大小为200945字节。
- 验证集: 包含150个样本,总大小为167328字节。
数据集大小
- 下载大小: 618416字节
- 数据集总大小: 1553684字节
许可证
- 许可证类型: Creative Commons Attribution 3.0 Unported License
标签
- coreference-resolution
- coreference
- anaphora
语言
- th
大小类别
- 1K<n<10K



