sxandie/autotrain-data-syn
收藏Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sxandie/autotrain-data-syn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为项目syn自动处理的数据集,语言为意大利语(BCP-47代码it),属于词元分类任务。数据集包含标记和标签字段,并分为训练集和验证集,分别包含303个和155个样本。
该数据集是为项目syn自动处理的数据集,语言为意大利语(BCP-47代码it),属于词元分类任务。数据集包含标记和标签字段,并分为训练集和验证集,分别包含303个和155个样本。
提供机构:
sxandie
原始信息汇总
数据集概述
基本信息
- 语言: 意大利语 (BCP-47代码: it)
- 任务类别: 令牌分类
数据集结构
- 数据实例: 每个实例包含以下字段:
- tokens: 字符串序列,表示文本中的单词或短语。
- tags: 分类标签序列,用于标记文本中的实体或特征。
数据集字段
- tokens: 字符串序列,长度可变。
- tags: 分类标签序列,包含多个预定义的类别,如O, commodity, company等,长度可变。
数据集分割
- 训练集: 包含303个样本。
- 验证集: 包含155个样本。
数据样本示例
json [ { "tokens": [...], "tags": [...] }, { "tokens": [...], "tags": [...] } ]
以上信息总结了数据集的基本结构、字段定义以及分割情况,为理解和使用该数据集提供了清晰的概述。



