five

EcoLexicon English Corpus (EEC)|环境科学数据集|语料库研究数据集

收藏
arXiv2018-07-16 更新2024-06-21 收录
环境科学
语料库研究
下载链接:
http://ecolexicon.ugr.es
下载链接
链接失效反馈
资源简介:
EcoLexicon English Corpus (EEC)是由格拉纳达大学翻译与口译系LexiCon研究组创建的一个包含2310万个单词的当代环境文本专业语料库。该数据集旨在支持EcoLexicon项目,一个环境领域的术语知识库。EEC通过Sketch Engine系统开放,允许用户免费访问和查询,适用于环境科学领域的专家、翻译和研究人员,用于模型构建、理解和生产任务。数据集内容丰富,涵盖多种环境研究领域和文本类型,通过精细的元数据标签支持复杂的查询和分析。
提供机构:
格拉纳达大学翻译与口译系
创建时间:
2018-07-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
EcoLexicon English Corpus (EEC)是由LexiCon研究小组构建的一个当代环境文本的专门语料库,包含2310万词。该语料库首先作为构建EcoLexicon(一个环境术语知识库)的内部工具而创建。在构建过程中,每个文本都被标记了一系列XML元数据,包括领域、用户类型、地理变体、体裁、编辑、年份和国家等信息。这些元数据使得用户可以根据实用因素限制语料库查询。随后,该语料库在Sketch Engine中进行了重新编译,并采用了Penn Treebank标记集和EcoLexicon语义草图语法(ESSG),以便提取语义关系。
特点
EEC的特点在于其作为一个开放语料库,可供用户免费访问和查询。它包含了多个领域和子领域的环境研究文本,并为不同水平的专业人士提供了针对性的文本。此外,EEC通过Sketch Engine提供了丰富的查询功能,包括基于元数据的文本类型过滤、词性标注查询、以及定制的词义关系草图。这些特性使得EEC成为环境科学领域的研究人员、专业作家、翻译家和术语学家等的重要资源。
使用方法
用户可以通过Sketch Engine的搜索功能访问EEC的语料库,执行简单查询或复杂的CQL查询,并结合文本类型过滤器进行定制。此外,EEC支持词义草图和Sketch diff功能,允许用户探索和比较不同术语之间的关系。Word list功能还可以用于生成基于不同参数的频率列表。这些方法使得EEC在环境科学领域内的研究应用中变得十分灵活和强大。
背景与挑战
背景概述
EcoLexicon English Corpus (EEC) 是由LexiCon研究小组构建的一个当代环境文本的语料库,总计包含约2310万词。该语料库的创建旨在为EcoLexicon(Faber, León-Araúz & Reimerink 2016; San Martín et al. 2017)这一环境术语知识库的发展提供支持。EcoLexicon English Corpus不仅在内部应用中作为知识提取工具,而且由于其演变成为一个独立的有用工具,被公开作为Sketch Engine中的一个开放语料库,供术语学家、翻译者甚至领域专家用于不同目的。该语料库的构建充分考虑了环境研究的多样性和专业性,涵盖了从1973年至2016年的文本,并按照领域、用户类型、地理变体、体裁、出版者和年份等参数进行了标记,以满足不同研究需求。
当前挑战
在构建EcoLexicon English Corpus的过程中,研究团队面临着多项挑战。首先是确保语料库能够充分代表环境研究的各个子领域,从而满足不同用户的需求。其次,构建过程中需要处理大量的文本数据,并确保其质量,这要求高效的数据处理技术和精细的质量控制。此外,语料库的构建还需要考虑到如何与Sketch Engine等工具兼容,以便用户能够充分利用其强大的查询和数据分析功能。在领域问题解决方面,EEC需要能够准确反映环境术语的使用情况和语义关系,这对于构建EcoLexicon知识库至关重要。
常用场景
经典使用场景
EcoLexicon English Corpus (EEC)作为一份当代环境文本的专门语料库,其经典使用场景在于为EcoLexicon知识库提供支撑。该语料库通过Sketch Engine的强大功能,使得用户能够进行深入的语义关系提取、词汇搭配分析以及术语频率统计等,进而为环境领域的学术研究、专业写作、翻译和术语学工作提供坚实基础。
解决学术问题
该数据集解决了环境领域学术研究中对于专门术语及其使用上下文理解的难题。通过提供丰富的元数据标记和强大的查询功能,EEC使得研究者能够准确把握不同用户群体、不同环境子领域中术语的使用差异,从而促进了对环境术语的深入理解和有效应用。
衍生相关工作
基于EEC,衍生出了一系列相关工作,如EcoLexiCAT计算机辅助翻译工具,它集成了EcoLexicon的术语知识,为环境文本的翻译提供了增强的支持。此外,还有针对西班牙语版本的EEC开发,以及基于EEC的语义关系提取和词汇搭配研究等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GenExam

GenExam是一个跨学科的文本到图像考试基准数据集,包含10个学科领域的1000个样本。每个样本都配备了考试风格的提示、真实图像和细粒度的评分点,旨在精确评估语义正确性和视觉合理性。该数据集通过将图像生成作为考试,严格评估模型的知识整合、推理和生成能力,为通用AGI的发展提供了见解。

huggingface 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录