wikipedia_dataset_science_en_id
收藏Hugging Face2026-03-13 更新2026-03-16 收录
下载链接:
https://huggingface.co/datasets/Ik45/wikipedia_dataset_science_en_id
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从英文和印尼语维基百科科学文章中提取的122,433个对齐的句子对,非常适合自然语言处理(NLP)任务,如机器翻译、跨语言对齐和微调大型语言模型(LLMs)以更好地理解印尼语中的科学术语。数据集涵盖科学领域(物理、化学、生物、数学、天文学、计算机科学、工程、医学),使用MIT许可,大小为约21.1 MB。每个数据实例包括对齐的句子对、语义相似度分数和源维基百科文章标题。数据字段包括英文句子(en)、印尼语句子(id)、语义对齐分数(score)、英文文章标题(en_title)和印尼语文章标题(id_title)。数据集通过维基百科API爬取,经过句子分词、过滤和语义对齐处理,使用paraphrase-multilingual-MiniLM-L12-v2模型计算句子嵌入的余弦相似度。建议用户根据分数过滤数据以提高质量,并注意数据可能反映百科全书文本的风格和潜在偏见。
创建时间:
2026-03-11



