SEACrowd/sea_translationese_resampled

Name: SEACrowd/sea_translationese_resampled
Creator: SEACrowd
Published: 2024-06-18 13:05:39
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/sea_translationese_resampled

下载链接

链接失效反馈

官方服务：

资源简介：

SEA Translationese vs. Natural Classification数据集是一个用于区分翻译文本和自然文本的分类数据集，支持9种东南亚语言：英语、印尼语、高棉语、老挝语、缅甸语、菲律宾语、泰语、越南语和马来语。数据集包含训练和测试集，分别包含约39.9k和51.5k个句子。标签映射为：0表示人工翻译，1表示机器翻译，2表示自然文本。该数据集旨在分析大语言模型在东南亚语言中的生成质量。

提供机构：

SEACrowd

原始信息汇总

数据集概述

数据集特征

text：数据类型为字符串。
label：数据类型为字符串。
config：数据类型为字符串。
lang：数据类型为字符串。

数据集分割

训练集：包含161,842个样本，总大小为56,245,055字节。
测试集：包含51,457个样本，总大小为38,076,758字节。

数据集大小

下载大小：38,371,172字节。
数据集总大小：94,321,813字节。

配置文件

默认配置：
- 训练数据路径：data/train-*
- 测试数据路径：data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集