five

lemon-mint/korean_parallel_sentences_v1.1

收藏
Hugging Face2024-06-21 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/lemon-mint/korean_parallel_sentences_v1.1
下载链接
链接失效反馈
官方服务:
资源简介:
Korean Parallel Sentences Ver 1.1数据集是一个包含韩语和英语平行句子的集合。虽然数据的准确性不能保证,但设计上确保了英语和韩语之间的翻译风格一致。该数据集由lemon-mint策划,使用MIT许可证,包含约492,564个句子对。数据质量总体良好,但可能存在一些错误或不一致。

Korean Parallel Sentences Ver 1.1数据集是一个包含韩语和英语平行句子的集合。虽然数据的准确性不能保证,但设计上确保了英语和韩语之间的翻译风格一致。该数据集由lemon-mint策划,使用MIT许可证,包含约492,564个句子对。数据质量总体良好,但可能存在一些错误或不一致。
提供机构:
lemon-mint
原始信息汇总

数据集卡片 for Korean Parallel Sentences Ver 1.1

数据集详情

数据集描述

Korean Parallel Sentences Ver 1.1 数据集是一个韩语和英语的平行句子的集合。尽管数据的事实准确性未得到保证,但它旨在确保英语和韩语之间的翻译风格准确且一致。

  • 语言(NLP): 韩语 (ko), 英语 (en)
  • 许可证: MIT 许可证

数据集来源

  • 存储库: [未指定]
  • 论文: [未指定]
  • 演示: [未指定]

用途

该数据集可用于与机器翻译和自然语言处理相关的各种任务,包括:

  • 训练韩语-英语翻译的机器翻译模型。
  • 跨语言嵌入模型的知识蒸馏
  • 评估翻译质量。
  • 开发能够理解和生成韩语和英语文本的语言模型。
  • 研究跨语言迁移学习。

限制

  • 事实准确性: 数据集可能包含内容不准确的句子,特别是关于地名和专有名词。
  • 数据来源: 数据的具体来源未明确记录。
  • 偏见: 数据集可能反映原始数据源中存在的偏见。

附加信息

  • 数据质量: 数据质量总体良好,但可能存在一些错误或不一致。
  • 数据大小: 数据集包含大约 492,564 个句子对。

在使用 Korean Parallel Sentences Ver 1.1 数据集时,了解这些限制非常重要。鼓励用户仔细审查数据并负责任地使用。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作