five

fathan/autotrain-data-code-mixed-language-identification

收藏
Hugging Face2023-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fathan/autotrain-data-code-mixed-language-identification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为code-mixed-language-identification项目自动处理的,用于token分类任务。数据集的BCP-47语言代码为unk。数据集包含tokens和tags字段,tokens为字符串序列,tags为ClassLabel序列,标签包括EN、ID、JV等。数据集分为训练集和验证集,训练集有1105个样本,验证集有438个样本。

This dataset was automatically processed for the code-mixed-language-identification project, and is intended for token classification tasks. Its BCP-47 language code is unk. The dataset includes two fields: `tokens` and `tags`. The `tokens` field is a sequence of strings, while the `tags` field is a sequence of ClassLabel objects, with the available labels including EN, ID, JV and others. The dataset is split into training and validation subsets, which contain 1105 and 438 samples respectively.
提供机构:
fathan
原始信息汇总

数据集概述

数据集描述

该数据集是为项目“code-mixed-language-identification”自动处理而生成的。

语言

数据集的语言标识符为BCP-47代码unk。

数据集结构

数据实例

数据集的样本结构如下:

json [ { "feat_Unnamed: 0": 1104, "tokens": [...], "tags": [...] }, { "feat_Unnamed: 0": 239, "tokens": [...], "tags": [...] } ]

数据集字段

数据集包含以下字段:

json { "feat_Unnamed: 0": "Value(dtype=int64, id=None)", "tokens": "Sequence(feature=Value(dtype=string, id=None), length=-1, id=None)", "tags": "Sequence(feature=ClassLabel(names=[EN, ID, JV, MIX_ID_EN, MIX_ID_JV, MIX_JV_EN, OTH], id=None), length=-1, id=None)" }

数据集分割

数据集分为训练集和验证集,分割详情如下:

分割名称 样本数量
训练集 1105
验证集 438
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作