ufal/bilingual-abstracts-corpus
收藏ÚFAL Bilingual Abstracts Corpus
数据集概述
- 许可证: cc
- 任务类别:
- 翻译
- 文本生成
- 语言:
- 英语 (en)
- 捷克语 (cs)
- 德语 (de)
- 斯洛伐克语 (sk)
- 俄语 (ru)
- 标签:
- 学术
- 摘要
- 双语
- 数据集名称: ÚFAL Bilingual Abstracts Corpus
- 数据规模: 1K<n<10K
数据集描述
- 来源: 由Institute of Formal and Applied Linguistics,查尔斯大学在布拉格的作者发布的科学论文和演讲的摘要。
- 内容: 每个出版记录包含原始摘要(捷克语或英语)及其翻译(英语或捷克语)。
- 数据处理: 数据经过去重和缺失项过滤,确保每个记录都是双语的。部分记录包含SemanticScholar的链接。
- 数据格式: JSONL格式,每行对应一个记录。
- 数据创建时间: 2024年3月的Biblio数据库镜像。
数据集统计
- 总记录数: 3079
- 平均摘要句子数(单词数): 4.1(98.7)
- 总句子数(单词数)(英语): 12k(303771)
- 语言分布:
- 英语: 2404 (78.1%)
- 捷克语: 650 (21.1%)
- 俄语: 13 (0.4%)
- 其他(长尾,较少代表的语言)
- 包含SemanticScholar链接的论文比例: 47.2%
- 出版年份分布: 2024: 35, 2023: 246, 2022: 197, 2021: 210, 2020: 163, 2019: 147, 2018: 173, 2017: 183, 2016: 206, 2015: 169, 2014: 187, 2013: 155, 2012: 146, 2011: 123, 2010: 146, 2009: 132, 2008: 133, 2007: 103, 2006: 113, 2005: 79, 2004: 13, 2003: 4, 2002: 5, 2001: 3, 2000: 4, 1998: 3, 1997: 1
示例
json { "lang": "en", "year": "2022", "title_en": "CorefUD 1.0: Coreference Meets Universal Dependencies", "title_cs": "CorefUD 1.0: Setkání koreference a Universal Dependencies", "abstract_en": "Recent advances in standardization for annotated language resources have led to successful large scale efforts, such as the Universal Dependencies (UD) project for multilingual syntactically annotated data. By comparison, the important task of coreference resolution, which clusters multiple mentions of entities in a text, has yet to be standardized in terms of data formats or annotation guidelines. In this paper we present CorefUD, a multilingual collection of corpora and a standardized format for coreference resolution, compatible with morphosyntactic annotations in the UD framework and including facilities for related tasks such as named entity recognition, which forms a first step in the direction of convergence for coreference resolution across languages.", "abstract_cs": "Nedávný pokrok ve standardizaci anotovaných jazykových zdrojů vedl k úspěšným velkým projektům jako Universal Dependencies (UD), kde se syntakticky anotují data pro mnoho jazyků. Anotace koreference, která spojuje opakované zmínky téže entity v textu a je pro porozumění jazyku velmi důležitá, je zatím standardizačním úsilím relativně nepoznamenaná. V tomto článku prezentujeme CorefUD, mnohojazyčnou sbírku korpusů a standardizovaný formát pro anotaci koreference, kompatibilní s morfosyntaktickou anotací v UD a rozšiřitelný na příbuzné úlohy, jako je rozpoznávání pojmenovaných entit. Jde o první krok směrem ke konvergenci koreferenčních zdrojů napříč jazyky.", "authors": ["Anna Nedoluzhko", "Michal Novák", "Martin Popel", "Zdeněk Žabokrtský", "Amir Zeldes", "Daniel Zeman"], "s2_url": "https://www.semanticscholar.org/paper/33336cdc37455107ca34636d844ab352e410eb1a/" }
引用
bibtex @misc{11234/1-4922, title = {Czech and English abstracts of {{U}FAL} papers (2022-11-11)}, author = {Rosa, Rudolf and Zouhar, Vil{e}m}, url = {http://hdl.handle.net/11234/1-4922}, note = {{LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({{U}FAL}), Faculty of Mathematics and Physics, Charles University}, copyright = {Creative Commons - Attribution 4.0 International ({CC} {BY} 4.0)}, year = {2022} }



