KrorngAI/ParaCrawl-English-Khmer-v2
收藏Hugging Face2026-03-18 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/KrorngAI/ParaCrawl-English-Khmer-v2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: english
dtype: string
- name: khmer
dtype: string
splits:
- name: train
num_bytes: 718689726
num_examples: 1501304
download_size: 305303915
dataset_size: 718689726
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
task_categories:
- translation
language:
- en
- km
---
This dataset is released by ParaCrawl Project, [https://paracrawl.eu](https://paracrawl.eu).
More languages can be found on their website: [https://paracrawl.eu](https://paracrawl.eu).
License
These data are released under this licensing scheme:
We do not own any of the text from which these data has been extracted.
We license the actual packaging of these parallel data under the Creative Commons CC0 license ("no rights reserved").
数据集信息:
特征字段:
- 字段名:id,数据类型:int64 整数类型
- 字段名:英语(English)文本,数据类型:字符串
- 字段名:高棉语(Khmer)文本,数据类型:字符串
数据集划分:
- 划分名称:训练集(train),字节数:718689726,样本数:1501304
下载大小:305303915 字节,数据集总大小:718689726 字节
配置项:
- 配置名称:默认(default),数据文件:
- 划分集:训练集(train),文件路径:data/train-*
任务类别:机器翻译
涉及语言:英语(en)、高棉语(km)
本数据集由ParaCrawl项目发布,官方网站为[https://paracrawl.eu](https://paracrawl.eu)。
更多语言的平行语料可在其官网查询:[https://paracrawl.eu](https://paracrawl.eu)。
许可证
本数据集采用如下授权方案:
我们不对抽取自本数据集的文本主张任何所有权。
我们将该平行语料的实际打包整理工作基于知识共享CC0协议("无权利保留")进行授权。
提供机构:
KrorngAI



