ROB_sample_conc_main.tsv, STEAL_sample_conc_main.tsv

github2022-12-09 更新2024-05-31 收录

下载链接：

https://github.com/gederajeg/constructional-equivalence

下载链接

链接失效反馈

官方服务：

资源简介：

包含ROB和STEAL样本的主要并行对照数据，以制表符分隔的文件，可在电子表格软件中打开。

This dataset comprises primary parallel control data for ROB and STEAL samples, formatted as a tab-delimited file that can be opened with spreadsheet software.

创建时间：

2021-12-13

原始信息汇总

数据集概述

本数据集为研究论文《A corpus-based study of constructional equivalence for the Indonesian translation of ROB and STEAL》的补充材料，由Gede Primahadi Wijaya Rajeg创建。该论文探讨了基于OpenSubtitles Parallel Corpus的印尼语翻译中ROB和STEAL的构造等价性，已发表于《PAROLE: Journal of Linguistics and Education》。

数据集内容

主要并行对齐数据：
- ROB_sample_conc_main.tsv
- STEAL_sample_conc_main.tsv 这些是带注释的并行对齐数据，以制表符分隔，可在电子表格软件中打开。
频率数据文件：
- freq-THEFT-verbs.rds 包含ROB和STEAL词形的原始频率数据。
分析代码：
- gpwrajeg_2021_paper-r-notebook.Rmd 此R Markdown笔记本文件包含进行统计分析的R代码，以及用于生成论文内统计数据的嵌入代码。所需R包包括tidyverse, RColorBrewer, 和 vcd。
论文中的所有图表：
- 位于figs文件夹中。

许可证信息

本数据集及其补充材料遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

搜集汇总

数据集介绍

构建方式

该数据集基于OpenSubtitles平行语料库构建，旨在研究英语动词ROB和STEAL在印尼语翻译中的构式对等性。数据集的构建过程包括从平行语料库中提取相关例句，并通过人工标注的方式对例句进行注释，确保每个例句的翻译对等性得到准确记录。数据集以TSV格式存储，便于在电子表格软件中查看和分析。

特点

该数据集的特点在于其专注于英语动词ROB和STEAL在印尼语翻译中的构式对等性，提供了详细的平行语料库例句及其翻译。数据集不仅包含原始例句，还附带了频率数据和R代码，便于用户进行进一步的语言学分析。此外，数据集还提供了R Markdown笔记本文件，用户可以通过该文件复现论文中的统计分析过程。

使用方法

用户可以通过下载TSV文件并使用电子表格软件查看数据集中的平行例句及其注释。对于更深入的分析，用户可以使用提供的R代码和R Markdown笔记本文件，结合tidyverse、RColorBrewer和vcd等R包进行统计分析。数据集中的频率数据文件（freq-THEFT-verbs.rds）可用于进一步研究ROB和STEAL的词形频率分布。

背景与挑战

背景概述

ROB_sample_conc_main.tsv和STEAL_sample_conc_main.tsv数据集由Gede Primahadi Wijaya Rajeg及其团队创建，旨在研究英语动词ROB和STEAL在印尼语翻译中的构式对等问题。该数据集基于OpenSubtitles平行语料库，研究结果发表于2022年的《PAROLE: Journal of Linguistics and Education》。该研究不仅推动了翻译学领域的理论发展，还为双语语料库的构建与分析提供了新的方法论支持。通过该数据集，研究者能够深入探讨词汇对等与构式对等在翻译中的复杂关系，为跨语言研究提供了重要的数据基础。

当前挑战

该数据集的研究面临多重挑战。首先，ROB和STEAL在英语中具有相似的语义，但在印尼语中的翻译可能因语境不同而产生显著差异，如何准确捕捉这些差异是研究的核心难点。其次，构建平行语料库时，数据的对齐与标注需要极高的精确度，尤其是在处理多义词和复杂句式时，人工标注的误差难以避免。此外，印尼语的语言结构较为复杂，如何在翻译过程中保持语义和语法的对等性，也是数据集构建过程中需要克服的技术难题。这些挑战不仅影响了数据的质量，也对后续的分析与解释提出了更高的要求。

常用场景

经典使用场景

在语言学和翻译研究领域，ROB_sample_conc_main.tsv和STEAL_sample_conc_main.tsv数据集被广泛用于分析英语动词ROB和STEAL在印尼语翻译中的结构对等性。通过OpenSubtitles平行语料库，研究者能够深入探讨这两种动词在不同语境下的翻译模式，揭示语言转换中的复杂性和多样性。

衍生相关工作

基于该数据集的研究成果，衍生了一系列关于翻译对等性和语言结构分析的经典工作。例如，Rajeg等人开发的R包paracorp，专门用于生成平行语料库中的关键词上下文显示，进一步推动了平行语料库分析工具的发展。此外，相关研究还扩展到了其他语言对的翻译对等性研究，丰富了跨语言研究的理论框架。

数据集最近研究