data-science-en-id
收藏Hugging Face2026-03-16 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/Ik45/data-science-en-id
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个专门为科学和数据科学领域设计的英语-印尼语(EN-ID)平行语料库,旨在支持神经机器翻译(NMT)模型和大型语言模型(LLM)的训练,以更好地处理技术术语、学术结构和正式科学语言。主要语言为英语和印尼语,领域涵盖数据科学、人工智能、机器学习和一般科学。应用场景包括神经机器翻译、领域适应和跨语言信息检索。数据集来源于wikimedia/wikipedia和ccdv/arxiv-summarization两个高质量源,通过词汇过滤、科学对齐、噪声减少和去重等步骤进行精炼。数据集规模在1000万到1亿样本之间,适用于科学和技术领域的机器翻译任务。
创建时间:
2026-03-14



