bilingual-abstracts-corpus

github2024-03-13 更新2024-05-31 收录

下载链接：

https://github.com/ufal/bilingual-abstracts-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由查尔斯大学ÚFAL研究所出版的科学论文和演讲摘要组成的双语语料库，包含捷克语和英语（主要是英语）的平行文本。每个出版记录都包含原始摘要及其翻译，数据经过去重和缺失项处理，确保每条记录都是双语的。数据集存储为JSONL格式，每行对应一个记录。

This is a bilingual corpus published by the ÚFAL Institute of Charles University, comprising scientific papers and lecture summaries. It includes parallel texts in Czech and English (primarily in English). Each publication record contains the original abstract along with its translation. The data has undergone deduplication and missing item processing to ensure that each record is bilingual. The dataset is stored in JSONL format, with each line corresponding to a single record.

创建时间：

2022-09-26

原始信息汇总

数据集概述

数据集名称

ÚFAL Bilingual Abstracts Corpus

数据集描述

这是一个平行语料库，包含捷克语和主要为英语的科学论文及演讲摘要，由布拉格查理大学的Institute of Formal and Applied Linguistics的作者发表。每个出版记录都包含原始摘要（捷克语或英语）及其翻译（英语或捷克语）。

数据集特点

经过去重和缺失项过滤，确保每条记录都是双语的。
包含被SemanticScholar索引的已发表论文的链接。
数据集来源于2022年9月的Biblio数据库快照，存储格式为JSONL，每行对应一个记录。

数据集统计信息

总记录数：3079
平均每摘要句子数（单词数）：4.1（98.7）
总句子数（单词数）（英语）：12k（303771）
语言分布：英语2404（78.1%），捷克语650（21.1%），俄语13（0.4%）等
含S2链接的论文比例：47.2%
出版年份分布：从2003年到2024年不等

数据集示例

json { "lang": "en", "year": "2022", "title_en": "CorefUD 1.0: Coreference Meets Universal Dependencies", "title_cs": "CorefUD 1.0: Setkání koreference a Universal Dependencies", "abstract_en": "...", "abstract_cs": "...", "authors": ["Anna Nedoluzhko", "Michal Novák", "Martin Popel", "Zdeněk Žabokrtský", "Amir Zeldes", "Daniel Zeman"], "s2_url": "https://www.semanticscholar.org/paper/33336cdc37455107ca34636d844ab352e410eb1a/" }

数据集创建者

Rudolf Rosa 和 Vilém Zouhar

数据集下载

可通过Lindat或huggingface下载。

搜集汇总

数据集介绍

构建方式

该数据集构建于2022年9月，源自布拉格查理大学形式与应用语言学研究所的内部Biblio数据库。作者在提交论文或演示文稿时，需提供原始摘要及其翻译，确保每条记录均为双语。数据经过去重和缺失值处理，确保每条记录完整。部分记录还包含SemanticScholar的链接，进一步丰富了数据的可用性。数据集以JSONL格式存储，每条记录对应一行，便于后续处理与分析。

特点

该数据集包含3079条双语摘要记录，涵盖捷克语和英语，其中英语摘要占比78.1%，捷克语占比21.1%。每条记录包含标题、摘要、作者信息及部分记录的SemanticScholar链接。摘要的平均句子数为4.1，平均词数为98.7，总词数达303771。数据集覆盖了从1997年至2024年的出版物，时间跨度广泛，为研究多语言摘要提供了丰富的语料支持。

使用方法

用户可通过Lindat或Hugging Face平台下载数据集，支持命令行和Python脚本两种方式。命令行使用`wget`命令直接下载原始数据，Python脚本则通过`load_dataset`函数加载数据集。此外，用户可通过运行`main.py`脚本复现数据集构建过程，若需获取SemanticScholar链接，可添加`-s2`参数。`statistics.py`脚本提供了数据集的统计概览，便于用户快速了解数据分布与特征。

背景与挑战

背景概述

bilingual-abstracts-corpus数据集由捷克查理大学形式与应用语言学研究所（ÚFAL）于2022年创建，主要研究人员包括Rudolf Rosa和Vilém Zouhar。该数据集收录了该研究所发表的科学论文和演讲的捷克语与英语摘要，构成了一个平行语料库。其核心研究问题在于通过双语摘要的对比，促进跨语言的自然语言处理研究，特别是在机器翻译和文本生成领域。该数据集不仅为研究者提供了丰富的双语资源，还通过标准化格式和语义链接（如SemanticScholar）增强了数据的可用性和可扩展性，对多语言信息处理领域具有重要的推动作用。

当前挑战

bilingual-abstracts-corpus数据集在构建过程中面临多重挑战。首先，确保数据的双语对齐性是其核心问题，需通过严格的过滤和验证流程去除重复和缺失条目。其次，数据来源的多样性和语言分布的不均衡性（如英语摘要占比78.1%，捷克语仅占21.1%）可能导致模型训练时的偏差。此外，尽管数据集提供了与SemanticScholar的链接，但仅有47.2%的记录包含此类链接，限制了外部资源的整合。在应用层面，如何有效利用该数据集进行跨语言任务（如机器翻译和文本生成）仍是一个技术难点，特别是在处理低资源语言（如俄语）时，模型的性能可能受到显著影响。

常用场景

经典使用场景

在自然语言处理领域，bilingual-abstracts-corpus数据集被广泛应用于机器翻译和跨语言信息检索的研究中。该数据集包含了捷克语和英语的科学论文摘要，为研究者提供了一个高质量的双语平行语料库。通过这一数据集，研究者可以训练和评估翻译模型，探索不同语言之间的语义对应关系，进而提升翻译系统的性能。

衍生相关工作

基于bilingual-abstracts-corpus数据集，研究者们开展了多项经典工作，如跨语言核心ference解析模型的开发和多语言翻译系统的优化。这些工作不仅提升了翻译模型的性能，还推动了多语言自然语言处理技术的发展。此外，该数据集还被用于构建多语言语义网络，为跨语言信息检索和知识图谱构建提供了重要支持。

数据集最近研究