EcoLexicon English Corpus (EEC)
收藏arXiv2018-07-16 更新2024-06-21 收录
下载链接:
http://ecolexicon.ugr.es
下载链接
链接失效反馈官方服务:
资源简介:
EcoLexicon English Corpus (EEC)是由格拉纳达大学翻译与口译系LexiCon研究组创建的一个包含2310万个单词的当代环境文本专业语料库。该数据集旨在支持EcoLexicon项目,一个环境领域的术语知识库。EEC通过Sketch Engine系统开放,允许用户免费访问和查询,适用于环境科学领域的专家、翻译和研究人员,用于模型构建、理解和生产任务。数据集内容丰富,涵盖多种环境研究领域和文本类型,通过精细的元数据标签支持复杂的查询和分析。
The EcoLexicon English Corpus (EEC) is a specialized contemporary environmental text corpus containing 23.1 million words, developed by the LexiCon Research Group of the Department of Translation and Interpreting at the University of Granada. This corpus was created to support the EcoLexicon project, a terminological knowledge base focused on the environmental domain. EEC is accessible through the Sketch Engine system, allowing free access and querying for experts, translators and researchers in environmental science, and is applicable to tasks including model construction, comprehension and production. Boasting rich content, the corpus covers a wide range of environmental research fields and text types, and supports complex queries and analyses via fine-grained metadata tags.
提供机构:
格拉纳达大学翻译与口译系
创建时间:
2018-07-16
搜集汇总
数据集介绍

构建方式
EcoLexicon English Corpus (EEC)是由LexiCon研究小组构建的一个当代环境文本的专门语料库,包含2310万词。该语料库首先作为构建EcoLexicon(一个环境术语知识库)的内部工具而创建。在构建过程中,每个文本都被标记了一系列XML元数据,包括领域、用户类型、地理变体、体裁、编辑、年份和国家等信息。这些元数据使得用户可以根据实用因素限制语料库查询。随后,该语料库在Sketch Engine中进行了重新编译,并采用了Penn Treebank标记集和EcoLexicon语义草图语法(ESSG),以便提取语义关系。
特点
EEC的特点在于其作为一个开放语料库,可供用户免费访问和查询。它包含了多个领域和子领域的环境研究文本,并为不同水平的专业人士提供了针对性的文本。此外,EEC通过Sketch Engine提供了丰富的查询功能,包括基于元数据的文本类型过滤、词性标注查询、以及定制的词义关系草图。这些特性使得EEC成为环境科学领域的研究人员、专业作家、翻译家和术语学家等的重要资源。
使用方法
用户可以通过Sketch Engine的搜索功能访问EEC的语料库,执行简单查询或复杂的CQL查询,并结合文本类型过滤器进行定制。此外,EEC支持词义草图和Sketch diff功能,允许用户探索和比较不同术语之间的关系。Word list功能还可以用于生成基于不同参数的频率列表。这些方法使得EEC在环境科学领域内的研究应用中变得十分灵活和强大。
背景与挑战
背景概述
EcoLexicon English Corpus (EEC) 是由LexiCon研究小组构建的一个当代环境文本的语料库,总计包含约2310万词。该语料库的创建旨在为EcoLexicon(Faber, León-Araúz & Reimerink 2016; San Martín et al. 2017)这一环境术语知识库的发展提供支持。EcoLexicon English Corpus不仅在内部应用中作为知识提取工具,而且由于其演变成为一个独立的有用工具,被公开作为Sketch Engine中的一个开放语料库,供术语学家、翻译者甚至领域专家用于不同目的。该语料库的构建充分考虑了环境研究的多样性和专业性,涵盖了从1973年至2016年的文本,并按照领域、用户类型、地理变体、体裁、出版者和年份等参数进行了标记,以满足不同研究需求。
当前挑战
在构建EcoLexicon English Corpus的过程中,研究团队面临着多项挑战。首先是确保语料库能够充分代表环境研究的各个子领域,从而满足不同用户的需求。其次,构建过程中需要处理大量的文本数据,并确保其质量,这要求高效的数据处理技术和精细的质量控制。此外,语料库的构建还需要考虑到如何与Sketch Engine等工具兼容,以便用户能够充分利用其强大的查询和数据分析功能。在领域问题解决方面,EEC需要能够准确反映环境术语的使用情况和语义关系,这对于构建EcoLexicon知识库至关重要。
常用场景
经典使用场景
EcoLexicon English Corpus (EEC)作为一份当代环境文本的专门语料库,其经典使用场景在于为EcoLexicon知识库提供支撑。该语料库通过Sketch Engine的强大功能,使得用户能够进行深入的语义关系提取、词汇搭配分析以及术语频率统计等,进而为环境领域的学术研究、专业写作、翻译和术语学工作提供坚实基础。
解决学术问题
该数据集解决了环境领域学术研究中对于专门术语及其使用上下文理解的难题。通过提供丰富的元数据标记和强大的查询功能,EEC使得研究者能够准确把握不同用户群体、不同环境子领域中术语的使用差异,从而促进了对环境术语的深入理解和有效应用。
衍生相关工作
基于EEC,衍生出了一系列相关工作,如EcoLexiCAT计算机辅助翻译工具,它集成了EcoLexicon的术语知识,为环境文本的翻译提供了增强的支持。此外,还有针对西班牙语版本的EEC开发,以及基于EEC的语义关系提取和词汇搭配研究等。
以上内容由遇见数据集搜集并总结生成



