five

文言文(古文)- 现代文平行语料|古文翻译数据集|语言学研究数据集

收藏
github2024-04-22 更新2024-05-31 收录
古文翻译
语言学研究
下载链接:
https://github.com/NiuTrans/Classical-Modern
下载链接
链接失效反馈
资源简介:
这是一个非常全的文言文(古文)- 现代文平行语料,基本涵盖了大部分经典古籍著作。从文学角度出发,本项目将所有古文原文整理至文件夹 `古文原文` 中,并对每本古籍,按篇章/章节进行划分与展示,正文部分存于各章节下的 `text.txt` 中,例如 `论语/学而篇/text.txt` ,`孟子/梁惠王章句上/第一节/text.txt` 。对于平行数据,本项目整理至文件夹 `双语数据` 中,这些双语数据是以句子级别为单位进行划分,本项目提供了原文、译文、双语三种数据格式,例如:`论语/学而篇/source.txt` 、 `论语/学而篇/target.txt` 、 `论语/学而篇/bitext.txt` 。注:所有数据均按行保留了古文原文的相对顺序,即数据非打乱。

This is a comprehensive parallel corpus of classical Chinese (ancient texts) and modern Chinese, covering most of the classic ancient books. From a literary perspective, this project organizes all the original ancient texts into the folder `古文原文`, and for each ancient book, it is divided and displayed by chapters/sections, with the main text stored in `text.txt` under each section, such as `论语/学而篇/text.txt`, `孟子/梁惠王章句上/第一节/text.txt`. For the parallel data, this project organizes it into the folder `双语数据`, where the bilingual data is divided at the sentence level. The project provides three data formats: original text, translated text, and bilingual text, such as `论语/学而篇/source.txt`, `论语/学而篇/target.txt`, `论语/学而篇/bitext.txt`. Note: All data retains the relative order of the original ancient texts by line, meaning the data is not shuffled.
创建时间:
2022-01-11
原始信息汇总

文言文(古文)- 现代文平行语料概述

数据集结构

  • 古文原文:包含327本书籍,按篇章/章节划分,正文存于各章节下的 text.txt 文件中。
  • 双语数据:包含97本书籍,提供原文、译文、双语三种数据格式,以句子级别对齐,共计972467个句对。

数据特点

  • 数据来源于互联网,经过处理后形成句子级别对齐的双语数据。
  • 采用归一化编辑距离算法与长度比指标进行核心对齐。
  • 双语数据文件夹中的古文数据量少于古文原文文件夹,因部分古文无译文或译文残缺。

统计信息

  • 古文原文包含327本书籍。
  • 双语数据包含97本书籍,共计972467个句对。

数据来源与声明

  • 所有数据均注明出处,详见各书目下的 数据来源.txt 文件。
  • 原始数据的最终解释权归相关数据来源方所有。

更新历史

  • v2.0(2023年3月):重新整理数据,保留详尽的原始数据信息,并注明出处。
  • v1.0(2022年2月):数据的初始整理。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该文言文-现代文平行语料库的构建过程严谨而系统。首先,从互联网获取篇章级对齐的双语文本,随后通过自动化脚本进行分句与对齐处理,最终形成句子级别的平行语料。对齐过程中,采用了归一化编辑距离算法与长度比指标,确保了句子对齐的准确性。此外,所有数据均按行保留了古文原文的相对顺序,确保了数据的连续性与一致性。
使用方法
该数据集适用于多种自然语言处理任务,如机器翻译、文本对齐及古文理解等。用户可直接访问 `古文原文` 文件夹获取原始古文,或使用 `双语数据` 文件夹中的句子级别对齐数据。数据格式清晰,提供了原文、译文及双语对照三种形式,便于不同研究场景下的应用。此外,项目还提供了数据处理脚本及复现过程,方便研究者进行进一步的分析与处理。
背景与挑战
背景概述
文言文(古文)- 现代文平行语料数据集是由谈修泽、罗应峰等研究人员于2022年2月首次整理发布,并在2023年3月进行了版本更新。该数据集旨在为古文与现代文之间的翻译与理解提供丰富的资源,涵盖了327本古籍著作,其中97本书籍的双语数据以句子级别对齐,共计972467个句对。该数据集的构建不仅促进了古文翻译技术的发展,也为语言学、文学研究等领域提供了宝贵的研究材料。通过归一化编辑距离算法与长度比指标,研究人员成功实现了篇章级对齐到句子级对齐的转换,极大地提升了数据的使用价值。
当前挑战
该数据集在构建过程中面临的主要挑战包括:首先,古文与现代文之间的语言结构差异显著,导致对齐难度较大;其次,部分古文缺乏对应的现代文译文,或译文存在残缺,限制了双语数据的完整性。此外,数据来源的多样性和复杂性也增加了数据清洗和处理的难度。尽管如此,通过采用先进的对齐算法和细致的数据处理流程,研究人员成功克服了这些挑战,为古文与现代文的研究提供了高质量的平行语料。
常用场景
经典使用场景
文言文(古文)- 现代文平行语料数据集的经典使用场景主要体现在自然语言处理领域,尤其是在机器翻译和语言对比研究中。该数据集通过提供句子级别的古文与现代文对齐数据,为研究者提供了一个高质量的训练和测试平台,用于开发和评估古文到现代文的翻译模型。此外,该数据集还可用于语言学研究,帮助分析古文与现代文之间的语法、词汇和语义差异,从而深化对汉语语言演变规律的理解。
解决学术问题
该数据集解决了在自然语言处理领域中,古文与现代文之间缺乏高质量平行语料的学术问题。通过提供大规模、句子级别对齐的双语数据,研究者能够更有效地训练和评估机器翻译模型,推动古文翻译技术的进步。同时,该数据集也为语言学研究提供了宝贵的资源,有助于揭示汉语语言的演变规律和翻译策略,对语言学理论的发展具有重要意义。
实际应用
在实际应用中,文言文(古文)- 现代文平行语料数据集可广泛应用于教育、文化和科技领域。例如,在教育领域,该数据集可用于开发古文学习辅助工具,帮助学生更轻松地理解和学习古文。在文化传承方面,该数据集支持古籍数字化和自动化翻译,有助于古籍的保存和传播。在科技领域,该数据集为自然语言处理技术的应用提供了基础,推动了古文信息处理和智能翻译系统的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,文言文与现代文平行语料的研究正逐渐成为热点。该数据集以其丰富的古籍资源和句子级别的对齐方式,为古文翻译、文本生成及跨语言理解等前沿研究提供了坚实的基础。特别是在机器翻译和语言模型训练方面,该语料的引入有助于提升模型对古文的理解与现代文的生成能力,进而推动文化遗产的数字化与智能化进程。此外,该数据集的开放性也为学者们提供了复现和扩展研究的可能性,进一步促进了古文与现代文处理技术的创新与发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录