en-ru-parallel-books
收藏数据集概述:EN-RU Parallel Book Corpus (Sci-Fi Collection)
数据集名称:en-ru-parallel-books
发布者:KvaytG
许可证:Apache License 2.0
语言对:俄语(ru)– 英语(en)
数据集大小:约 1,000 到 10,000 个样本(实际训练集包含 1,810 个样本)
任务类型:翻译(translation)
标签:平行语料库、文学翻译、俄语、英语、黄金标准对齐
数据集描述
该数据集是一个基于科幻文学作品的高质量俄英平行语料库,由 KvaytG 创作。语料库包含原文及其翻译,经过精细对齐以确保语义等价。适用于机器翻译(MT)微调、大语言模型(LLM)评估以及跨语言语言学分析。
收录作品:
- 《灰烬之上的纪念碑》(俄语:"Монумент над пепелищем")—— 科幻长篇小说
- 《霜》(俄语:"Иней")—— 科幻短篇小说
数据集结构
数据以 Parquet 格式提供,包含以下字段:
russian:俄语文本english:对应的英语文本
数据集仅包含一个拆分(split):
- train:1,810 个样本
数据构建方法
该语料库通过 手动对齐 和验证流程创建。每个片段都经过交叉检查,确保俄语和英语配对在意义上完全匹配。与自动爬取的语料库不同,这是一个“干净”的双语文本,没有断裂配对或幻觉片段。
使用示例
python from datasets import load_dataset
dataset = load_dataset("KvaytG/en-ru-parallel-books", split="train")
引用信息
bibtex @misc{kvaytg_en_ru_parallel_books, author = {KvaytG}, title = {EN-RU Parallel Book Corpus: Sci-Fi Collection}, year = {2026}, publisher = {Hugging Face}, journal = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/KvaytG/en-ru-parallel-books}, note = {High-quality aligned literary parallel corpus including Monument over the Ashes and Hoarfrost.} }




