ukr-detect/ukr-formality-dataset-translated-gyafc
收藏Hugging Face2025-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ukr-detect/ukr-formality-dataset-translated-gyafc
下载链接
链接失效反馈官方服务:
资源简介:
我们通过翻译英语GYAFC数据获得了首个乌克兰语形式分类数据集。数据集的形成过程包括:1. 英语数据来源:https://aclanthology.org/N18-1012/;2. 使用模型将数据翻译成乌克兰语:https://huggingface.co/facebook/nllb-200-distilled-600M;3. 此外,数据集进行了平衡处理。标签:0 - 非正式,1 - 正式。
We obtained the first of its kind Ukrainian Formality Classification dataset by translating English GYAFC data. Dataset formation: 1. English data source: https://aclanthology.org/N18-1012/; 2. Translation into Ukrainian language using model: https://huggingface.co/facebook/nllb-200-distilled-600M; 3. Additionally, the dataset was balanced. Labels: 0 - informal, 1 - formal.
提供机构:
ukr-detect
原始信息汇总
数据集概述
数据集信息
- 特征:
text: 类型为stringlabels: 类型为int64
- 分割:
train: 字节数为 21864433,样本数为 209124validation: 字节数为 1066875,样本数为 10272test: 字节数为 512199,样本数为 4853
- 下载大小: 11963779 字节
- 数据集大小: 23443507 字节
配置
- 默认配置:
train: 路径为data/train-*validation: 路径为data/validation-*test: 路径为data/test-*
任务类别
- 文本分类
语言
- 乌克兰语
数据集名称
ukr-fomalit
标签说明
0: 非正式1: 正式



