five

ROB_sample_conc_main.tsv, STEAL_sample_conc_main.tsv

收藏
github2022-12-09 更新2024-05-31 收录
下载链接:
https://github.com/gederajeg/constructional-equivalence
下载链接
链接失效反馈
官方服务:
资源简介:
包含ROB和STEAL样本的主要并行对照数据,以制表符分隔的文件,可在电子表格软件中打开。

This dataset comprises primary parallel control data for ROB and STEAL samples, formatted as a tab-delimited file that can be opened with spreadsheet software.
创建时间:
2021-12-13
原始信息汇总

数据集概述

本数据集为研究论文《A corpus-based study of constructional equivalence for the Indonesian translation of ROB and STEAL》的补充材料,由Gede Primahadi Wijaya Rajeg创建。该论文探讨了基于OpenSubtitles Parallel Corpus的印尼语翻译中ROB和STEAL的构造等价性,已发表于《PAROLE: Journal of Linguistics and Education》。

数据集内容

  1. 主要并行对齐数据

    • ROB_sample_conc_main.tsv
    • STEAL_sample_conc_main.tsv 这些是带注释的并行对齐数据,以制表符分隔,可在电子表格软件中打开。
  2. 频率数据文件

    • freq-THEFT-verbs.rds 包含ROB和STEAL词形的原始频率数据。
  3. 分析代码

    • gpwrajeg_2021_paper-r-notebook.Rmd 此R Markdown笔记本文件包含进行统计分析的R代码,以及用于生成论文内统计数据的嵌入代码。所需R包包括tidyverse, RColorBrewer, 和 vcd
  4. 论文中的所有图表

    • 位于figs文件夹中。

许可证信息

本数据集及其补充材料遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于OpenSubtitles平行语料库构建,旨在研究英语动词ROB和STEAL在印尼语翻译中的构式对等性。数据集的构建过程包括从平行语料库中提取相关例句,并通过人工标注的方式对例句进行注释,确保每个例句的翻译对等性得到准确记录。数据集以TSV格式存储,便于在电子表格软件中查看和分析。
特点
该数据集的特点在于其专注于英语动词ROB和STEAL在印尼语翻译中的构式对等性,提供了详细的平行语料库例句及其翻译。数据集不仅包含原始例句,还附带了频率数据和R代码,便于用户进行进一步的语言学分析。此外,数据集还提供了R Markdown笔记本文件,用户可以通过该文件复现论文中的统计分析过程。
使用方法
用户可以通过下载TSV文件并使用电子表格软件查看数据集中的平行例句及其注释。对于更深入的分析,用户可以使用提供的R代码和R Markdown笔记本文件,结合tidyverse、RColorBrewer和vcd等R包进行统计分析。数据集中的频率数据文件(freq-THEFT-verbs.rds)可用于进一步研究ROB和STEAL的词形频率分布。
背景与挑战
背景概述
ROB_sample_conc_main.tsv和STEAL_sample_conc_main.tsv数据集由Gede Primahadi Wijaya Rajeg及其团队创建,旨在研究英语动词ROB和STEAL在印尼语翻译中的构式对等问题。该数据集基于OpenSubtitles平行语料库,研究结果发表于2022年的《PAROLE: Journal of Linguistics and Education》。该研究不仅推动了翻译学领域的理论发展,还为双语语料库的构建与分析提供了新的方法论支持。通过该数据集,研究者能够深入探讨词汇对等与构式对等在翻译中的复杂关系,为跨语言研究提供了重要的数据基础。
当前挑战
该数据集的研究面临多重挑战。首先,ROB和STEAL在英语中具有相似的语义,但在印尼语中的翻译可能因语境不同而产生显著差异,如何准确捕捉这些差异是研究的核心难点。其次,构建平行语料库时,数据的对齐与标注需要极高的精确度,尤其是在处理多义词和复杂句式时,人工标注的误差难以避免。此外,印尼语的语言结构较为复杂,如何在翻译过程中保持语义和语法的对等性,也是数据集构建过程中需要克服的技术难题。这些挑战不仅影响了数据的质量,也对后续的分析与解释提出了更高的要求。
常用场景
经典使用场景
在语言学和翻译研究领域,ROB_sample_conc_main.tsv和STEAL_sample_conc_main.tsv数据集被广泛用于分析英语动词ROB和STEAL在印尼语翻译中的结构对等性。通过OpenSubtitles平行语料库,研究者能够深入探讨这两种动词在不同语境下的翻译模式,揭示语言转换中的复杂性和多样性。
衍生相关工作
基于该数据集的研究成果,衍生了一系列关于翻译对等性和语言结构分析的经典工作。例如,Rajeg等人开发的R包paracorp,专门用于生成平行语料库中的关键词上下文显示,进一步推动了平行语料库分析工具的发展。此外,相关研究还扩展到了其他语言对的翻译对等性研究,丰富了跨语言研究的理论框架。
数据集最近研究
最新研究方向
在语言学与翻译研究领域,ROB_sample_conc_main.tsv和STEAL_sample_conc_main.tsv数据集的最新研究方向聚焦于构建英语与印尼语之间的结构对等性。通过OpenSubtitles平行语料库,研究者深入探讨了ROB和STEAL这两个动词在印尼语翻译中的对等性表现。这一研究不仅揭示了词汇在跨语言转换中的复杂性,还为翻译教学和语言学习提供了新的视角。此外,伴随研究发布的R包paracorp,为平行语料库的关键词上下文展示提供了技术支持,进一步推动了语料库语言学与翻译研究的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作