ufal/bilingual-abstracts-corpus

Name: ufal/bilingual-abstracts-corpus
Creator: ufal
Published: 2024-03-12 17:46:50
License: 暂无描述

Hugging Face2024-03-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ufal/bilingual-abstracts-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ÚFAL双语摘要语料库是一个包含捷克语和英语科学论文和演示文稿摘要的平行（双语）语料库，这些摘要由布拉格查理大学形式与应用语言学研究所的作者发布。每个出版物记录都包含原始摘要（捷克语或英语）及其翻译（英语或捷克语）。数据经过去重和缺失条目过滤，确保每条记录都是双语的。数据集以JSONL格式存储，每条记录对应一行。数据集还包含与SemanticScholar索引的论文的链接。数据集的基本统计信息包括总记录数、每篇摘要的平均句子数和单词数、总句子数和单词数、语言分布、带有SemanticScholar链接的论文比例以及出版年份分布。

提供机构：

ufal

原始信息汇总

ÚFAL Bilingual Abstracts Corpus

数据集概述

许可证: cc
任务类别:
- 翻译
- 文本生成
语言:
- 英语 (en)
- 捷克语 (cs)
- 德语 (de)
- 斯洛伐克语 (sk)
- 俄语 (ru)
标签:
- 学术
- 摘要
- 双语
数据集名称: ÚFAL Bilingual Abstracts Corpus
数据规模: 1K<n<10K

数据集描述

来源: 由Institute of Formal and Applied Linguistics，查尔斯大学在布拉格的作者发布的科学论文和演讲的摘要。
内容: 每个出版记录包含原始摘要（捷克语或英语）及其翻译（英语或捷克语）。
数据处理: 数据经过去重和缺失项过滤，确保每个记录都是双语的。部分记录包含SemanticScholar的链接。
数据格式: JSONL格式，每行对应一个记录。
数据创建时间: 2024年3月的Biblio数据库镜像。

数据集统计

总记录数: 3079
平均摘要句子数（单词数）: 4.1（98.7）
总句子数（单词数）（英语）: 12k（303771）
语言分布:
- 英语: 2404 (78.1%)
- 捷克语: 650 (21.1%)
- 俄语: 13 (0.4%)
- 其他（长尾，较少代表的语言）
包含SemanticScholar链接的论文比例: 47.2%
出版年份分布: 2024: 35, 2023: 246, 2022: 197, 2021: 210, 2020: 163, 2019: 147, 2018: 173, 2017: 183, 2016: 206, 2015: 169, 2014: 187, 2013: 155, 2012: 146, 2011: 123, 2010: 146, 2009: 132, 2008: 133, 2007: 103, 2006: 113, 2005: 79, 2004: 13, 2003: 4, 2002: 5, 2001: 3, 2000: 4, 1998: 3, 1997: 1

示例

json { "lang": "en", "year": "2022", "title_en": "CorefUD 1.0: Coreference Meets Universal Dependencies", "title_cs": "CorefUD 1.0: Setkání koreference a Universal Dependencies", "abstract_en": "Recent advances in standardization for annotated language resources have led to successful large scale efforts, such as the Universal Dependencies (UD) project for multilingual syntactically annotated data. By comparison, the important task of coreference resolution, which clusters multiple mentions of entities in a text, has yet to be standardized in terms of data formats or annotation guidelines. In this paper we present CorefUD, a multilingual collection of corpora and a standardized format for coreference resolution, compatible with morphosyntactic annotations in the UD framework and including facilities for related tasks such as named entity recognition, which forms a first step in the direction of convergence for coreference resolution across languages.", "abstract_cs": "Nedávný pokrok ve standardizaci anotovaných jazykových zdrojů vedl k úspěšným velkým projektům jako Universal Dependencies (UD), kde se syntakticky anotují data pro mnoho jazyků. Anotace koreference, která spojuje opakované zmínky téže entity v textu a je pro porozumění jazyku velmi důležitá, je zatím standardizačním úsilím relativně nepoznamenaná. V tomto článku prezentujeme CorefUD, mnohojazyčnou sbírku korpusů a standardizovaný formát pro anotaci koreference, kompatibilní s morfosyntaktickou anotací v UD a rozšiřitelný na příbuzné úlohy, jako je rozpoznávání pojmenovaných entit. Jde o první krok směrem ke konvergenci koreferenčních zdrojů napříč jazyky.", "authors": ["Anna Nedoluzhko", "Michal Novák", "Martin Popel", "Zdeněk Žabokrtský", "Amir Zeldes", "Daniel Zeman"], "s2_url": "https://www.semanticscholar.org/paper/33336cdc37455107ca34636d844ab352e410eb1a/" }

引用

bibtex @misc{11234/1-4922, title = {Czech and English abstracts of {{U}FAL} papers (2022-11-11)}, author = {Rosa, Rudolf and Zouhar, Vil{e}m}, url = {http://hdl.handle.net/11234/1-4922}, note = {{LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({{U}FAL}), Faculty of Mathematics and Physics, Charles University}, copyright = {Creative Commons - Attribution 4.0 International ({CC} {BY} 4.0)}, year = {2022} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集