asas-ai/ANERCorp
收藏Hugging Face2024-05-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/asas-ai/ANERCorp
下载链接
链接失效反馈官方服务:
资源简介:
ANERCorp是一个用于阿拉伯语命名实体识别(Named Entity Recognition, NER)的数据集。它包含训练和测试两个分割,每个分割由单词和对应的标签组成。数据集总共有125,102个训练示例和25,008个测试示例,总大小为2,746,407字节。该数据集遵循cc-by-sa-4.0许可证,主要用于令牌分类任务。
ANERCorp是一个用于阿拉伯语命名实体识别(Named Entity Recognition, NER)的数据集。它包含训练和测试两个分割,每个分割由单词和对应的标签组成。数据集总共有125,102个训练示例和25,008个测试示例,总大小为2,746,407字节。该数据集遵循cc-by-sa-4.0许可证,主要用于令牌分类任务。
提供机构:
asas-ai
原始信息汇总
数据集概述
基本信息
- 数据集名称: ANERCorp
- 许可: cc-by-sa-4.0
- 语言: 阿拉伯语 (ar)
- 任务类别: 令牌分类 (token-classification)
- 大小类别: 100K<n<1M
数据结构
- 特征:
- word: 数据类型为字符串
- tag: 数据类型为字符串
数据集划分
- 训练集:
- 文件路径: data/train-*
- 示例数量: 125102
- 字节数: 2286358
- 测试集:
- 文件路径: data/test-*
- 示例数量: 25008
- 字节数: 460049
数据集大小
- 下载大小: 1029992字节
- 数据集总大小: 2746407字节



