lemon-mint/korean_parallel_sentences_v1.1
收藏Hugging Face2024-06-21 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/lemon-mint/korean_parallel_sentences_v1.1
下载链接
链接失效反馈官方服务:
资源简介:
Korean Parallel Sentences Ver 1.1数据集是一个包含韩语和英语平行句子的集合。虽然数据的准确性不能保证,但设计上确保了英语和韩语之间的翻译风格一致。该数据集由lemon-mint策划,使用MIT许可证,包含约492,564个句子对。数据质量总体良好,但可能存在一些错误或不一致。
Korean Parallel Sentences Ver 1.1数据集是一个包含韩语和英语平行句子的集合。虽然数据的准确性不能保证,但设计上确保了英语和韩语之间的翻译风格一致。该数据集由lemon-mint策划,使用MIT许可证,包含约492,564个句子对。数据质量总体良好,但可能存在一些错误或不一致。
提供机构:
lemon-mint
原始信息汇总
数据集卡片 for Korean Parallel Sentences Ver 1.1
数据集详情
数据集描述
Korean Parallel Sentences Ver 1.1 数据集是一个韩语和英语的平行句子的集合。尽管数据的事实准确性未得到保证,但它旨在确保英语和韩语之间的翻译风格准确且一致。
- 语言(NLP): 韩语 (ko), 英语 (en)
- 许可证: MIT 许可证
数据集来源
- 存储库: [未指定]
- 论文: [未指定]
- 演示: [未指定]
用途
该数据集可用于与机器翻译和自然语言处理相关的各种任务,包括:
- 训练韩语-英语翻译的机器翻译模型。
- 跨语言嵌入模型的知识蒸馏
- 评估翻译质量。
- 开发能够理解和生成韩语和英语文本的语言模型。
- 研究跨语言迁移学习。
限制
- 事实准确性: 数据集可能包含内容不准确的句子,特别是关于地名和专有名词。
- 数据来源: 数据的具体来源未明确记录。
- 偏见: 数据集可能反映原始数据源中存在的偏见。
附加信息
- 数据质量: 数据质量总体良好,但可能存在一些错误或不一致。
- 数据大小: 数据集包含大约 492,564 个句子对。
在使用 Korean Parallel Sentences Ver 1.1 数据集时,了解这些限制非常重要。鼓励用户仔细审查数据并负责任地使用。



