five

KrorngAI/ParaCrawl-English-Khmer-v2

收藏
Hugging Face2026-03-18 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/KrorngAI/ParaCrawl-English-Khmer-v2
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: int64 - name: english dtype: string - name: khmer dtype: string splits: - name: train num_bytes: 718689726 num_examples: 1501304 download_size: 305303915 dataset_size: 718689726 configs: - config_name: default data_files: - split: train path: data/train-* task_categories: - translation language: - en - km --- This dataset is released by ParaCrawl Project, [https://paracrawl.eu](https://paracrawl.eu). More languages can be found on their website: [https://paracrawl.eu](https://paracrawl.eu). License These data are released under this licensing scheme: We do not own any of the text from which these data has been extracted. We license the actual packaging of these parallel data under the Creative Commons CC0 license ("no rights reserved").

数据集信息: 特征字段: - 字段名:id,数据类型:int64 整数类型 - 字段名:英语(English)文本,数据类型:字符串 - 字段名:高棉语(Khmer)文本,数据类型:字符串 数据集划分: - 划分名称:训练集(train),字节数:718689726,样本数:1501304 下载大小:305303915 字节,数据集总大小:718689726 字节 配置项: - 配置名称:默认(default),数据文件: - 划分集:训练集(train),文件路径:data/train-* 任务类别:机器翻译 涉及语言:英语(en)、高棉语(km) 本数据集由ParaCrawl项目发布,官方网站为[https://paracrawl.eu](https://paracrawl.eu)。 更多语言的平行语料可在其官网查询:[https://paracrawl.eu](https://paracrawl.eu)。 许可证 本数据集采用如下授权方案: 我们不对抽取自本数据集的文本主张任何所有权。 我们将该平行语料的实际打包整理工作基于知识共享CC0协议("无权利保留")进行授权。
提供机构:
KrorngAI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作