英语-俄语时尚语料库
收藏arXiv2024-12-04 更新2024-12-06 收录
下载链接:
http://arxiv.org/abs/2412.03242v1
下载链接
链接失效反馈官方服务:
资源简介:
英语-俄语时尚语料库是由萨里大学翻译研究中心创建的,用于评估ChatGPT在术语提取和定义生成方面的准确性。该数据集包含24本时尚杂志和52个时尚网站的内容,涵盖英语和俄语两种语言,总词汇量超过180万。数据集的创建过程包括从网络收集、下载、格式转换和文本清理等多个步骤,旨在为翻译和术语提取提供高质量的语料支持。该数据集主要应用于时尚领域的术语提取和定义生成,旨在解决多语言环境下专业术语的准确性和一致性问题。
The English-Russian Fashion Corpus was created by the Translation Studies Centre of the University of Surrey to evaluate the accuracy of ChatGPT in term extraction and definition generation. This dataset contains content from 24 fashion magazines and 52 fashion websites, covering both English and Russian languages, with a total vocabulary of over 1.8 million words. The construction process of the dataset includes multiple steps such as web collection, downloading, format conversion and text cleaning, aiming to provide high-quality corpus support for translation and term extraction. This dataset is mainly applied to term extraction and definition generation in the fashion field, aiming to address the issues of accuracy and consistency of professional terms in multilingual environments.
提供机构:
萨里大学翻译研究中心
创建时间:
2024-12-04
搜集汇总
数据集介绍

构建方式
该数据集的构建始于对时尚领域权威杂志和网站的精心筛选,通过Google搜索引擎识别并下载了2021至2024年间出版的24本时尚杂志(12本英语,12本俄语)以及52个时尚网站的内容。这些资源被转换为TXT格式,并通过ChatGPT进行文本清理,以确保语料库的纯净性和代表性。最终,该语料库包含超过180万字,其中英语100万字,俄语80万字,为后续的术语提取和定义生成提供了坚实的基础。
使用方法
该数据集主要用于评估和比较不同术语提取工具(如SketchEngine、TBXTools和ChatGPT)在时尚领域的性能。研究者可以通过该语料库提取术语,并使用金标准进行验证,以评估工具的精确度和召回率。此外,该数据集还可用于训练和测试自然语言处理模型,特别是在多语言环境和特定领域术语的处理上,为翻译和术语管理提供支持。
背景与挑战
背景概述
英语-俄语时尚语料库由Anastasiia Bezobrazova、Constantin Orasan和Miriam Seghiri等研究人员于近期创建,旨在为时尚领域的双语词汇构建提供可靠的数据支持。该语料库的构建基于从网络收集的英语和俄语时尚杂志文本,并通过自动化工具如SketchEngine、TBXTools和ChatGPT进行术语提取和定义生成。这一研究不仅填补了现有工具在术语定义生成方面的空白,还为翻译工作者提供了宝贵的资源,推动了时尚领域语言处理技术的发展。
当前挑战
英语-俄语时尚语料库在构建过程中面临多项挑战。首先,从网络收集的文本在转换为TXT格式时,常出现噪声问题,如符号、数字和布局问题,这增加了数据清洗的复杂性。其次,术语提取工具如SketchEngine和TBXTools在处理大量术语时,精度下降,导致提取结果中包含大量无关术语。尽管ChatGPT在术语提取和定义生成方面表现出色,但其输出结果仍需人工校验,以确保信息的准确性和完整性。此外,ChatGPT在处理不同语言时,偶尔会出现翻译错误或信息遗漏,这要求在使用过程中进行额外的校正工作。
常用场景
经典使用场景
英语-俄语时尚语料库的经典使用场景主要集中在双语术语提取和定义生成。该语料库通过收集自网络的英语和俄语时尚杂志文本,为研究人员提供了一个丰富的数据源,用于评估和比较不同工具(如SketchEngine、TBXTools和ChatGPT)在术语提取和定义生成方面的准确性和效率。
解决学术问题
该数据集解决了在多语言专业领域中术语提取和定义生成的常见学术问题。通过提供一个高质量的时尚文本语料库,研究人员能够系统地评估和比较不同工具的性能,从而推动术语学和自然语言处理领域的发展。此外,该数据集还为构建双语术语词典提供了宝贵的资源,有助于翻译工作者的工作。
实际应用
在实际应用中,英语-俄语时尚语料库被广泛用于翻译和术语管理领域。通过该语料库,翻译工作者可以更准确地理解和使用时尚领域的专业术语,从而提高翻译质量和效率。此外,该数据集还可用于开发和优化自动翻译系统,特别是在处理时尚领域的文本时。
数据集最近研究
最新研究方向
在英语-俄语时尚语料库的最新研究中,研究者们聚焦于利用ChatGPT等大型语言模型(LLMs)进行术语提取和定义生成。该研究不仅比较了ChatGPT与传统工具如SketchEngine和TBXTools在术语提取精度上的表现,还评估了ChatGPT生成的定义质量。研究发现,尽管ChatGPT在保持高精度的同时,其召回率相对较低,但其生成的定义在跨语言环境中表现出较高的准确性和一致性。这一研究为时尚领域的双语术语库构建提供了新的视角,特别是在全球化背景下,如何利用AI技术提升术语处理的效率和准确性。
相关研究论文
- 1Benchmarking terminology building capabilities of ChatGPT on an English-Russian Fashion Corpus萨里大学翻译研究中心 · 2024年
以上内容由遇见数据集搜集并总结生成



