five

Nexdata/1990000_Groups_Chinese_Czech_Parallel_Corpus_Data

收藏
Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/1990000_Groups_Chinese_Czech_Parallel_Corpus_Data
下载链接
链接失效反馈
官方服务:
资源简介:
1,990,000对中文和捷克语的平行翻译语料,数据存储格式为TXT文档。数据已经过清洗、脱敏和质量检查,可用作文本数据分析和机器翻译等领域的基础语料。数据内容初步分类,涵盖技术、医疗、旅游、口语、新闻和军事等领域。

1,990,000对中文和捷克语的平行翻译语料,数据存储格式为TXT文档。数据已经过清洗、脱敏和质量检查,可用作文本数据分析和机器翻译等领域的基础语料。数据内容初步分类,涵盖技术、医疗、旅游、口语、新闻和军事等领域。
提供机构:
Nexdata
原始信息汇总

数据集概述

数据集描述

  • 规模: 包含1,990,000套中文与捷克语平行翻译语料。
  • 存储格式: TXT文档。
  • 数据处理: 已完成数据清洗、去敏化和质量检查。
  • 应用领域: 可作为文本数据分析和机器翻译的基础语料。

数据内容

  • 内容分类: 初步分类,涵盖技术、医疗、旅游、口语、新闻和军事等领域。
  • 数据类型: 中文-捷克语平行语料数据。

数据规模

  • 总量: 1.99百万对中文-捷克语平行语料数据。

语言

  • 支持语言: 中文、捷克语。

应用场景

  • 主要应用: 机器翻译。

许可信息

  • 许可类型: 商业许可。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作