rvv-karma/English-Hinglish-TOP
收藏Hugging Face2023-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rvv-karma/English-Hinglish-TOP
下载链接
链接失效反馈官方服务:
资源简介:
English Hinglish数据集是一个多语言翻译数据集,包含英语和印地语的混合语言(Hinglish)。该数据集来源于Hinglish-TOP Dataset,包含训练、验证和测试三个部分。数据集中包含人类生成和合成生成的数据,具体分布在训练、验证和测试集中有所不同。数据集的特征包括英语文本、Hinglish文本、解析后的英语文本、解析后的Hinglish文本、领域信息和生成方式。
English Hinglish数据集是一个多语言翻译数据集,包含英语和印地语的混合语言(Hinglish)。该数据集来源于Hinglish-TOP Dataset,包含训练、验证和测试三个部分。数据集中包含人类生成和合成生成的数据,具体分布在训练、验证和测试集中有所不同。数据集的特征包括英语文本、Hinglish文本、解析后的英语文本、解析后的Hinglish文本、领域信息和生成方式。
提供机构:
rvv-karma
原始信息汇总
English Hinglish 数据集概述
基本信息
- 语言: 英语 (en), 印地语-英语混合语 (hi)
- 许可证: Apache 2.0
- 多语言性: 多语言, 翻译
- 大小类别: 10K<n<100K
- 任务类别: 翻译, 文本生成
- 美观名称: English Hinglish
数据集信息
特征
- en: 字符串类型
- hi_en: 字符串类型
- en_parse: 字符串类型
- hi_en_parse: 字符串类型
- domain: 字符串类型
- generated_by: 字符串类型
分割
- 训练集 (train)
- 字节数: 56585917
- 样本数: 176596
- 验证集 (val)
- 字节数: 423297
- 样本数: 1390
- 测试集 (test)
- 字节数: 2056405
- 样本数: 6513
大小
- 下载大小: 26490229 字节
- 数据集大小: 59065619 字节
配置
- 默认配置 (default)
- 数据文件路径:
- 训练集: data/train-*
- 验证集: data/val-*
- 测试集: data/test-*
- 数据文件路径:
数据分布
- 训练集
- 人工生成: 6513
- 合成生成: 170083
- 验证集
- 人工生成: 1390
- 合成生成: 0
- 测试集
- 人工生成: 6513
- 合成生成: 0
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



