Turkish-English code-switching corpus

github2022-11-21 更新2024-05-31 收录

下载链接：

https://github.com/zeynepyirmibes/code-switching-tr-en

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了一个土耳其-英语代码切换语料库，该语料库是在《检测土耳其-英语语言对之间的代码切换》论文中创建的。数据集包括原始句子和带有语言标签（t代表土耳其语，e代表英语）的标记句子。

We present a Turkish-English code-switching corpus, which was created in the paper titled 'Detecting Code-Switching between Turkish-English Language Pairs'. The dataset includes original sentences and tokenized sentences with language labels (t for Turkish, e for English).

创建时间：

2022-11-21

原始信息汇总

数据集概述：Detecting Code-Switching (Turkish-English)

数据集内容

原始句子：包含未处理的土耳其语和英语混合句子。
标记化句子：句子已被标记化，并附有语言标签（t代表土耳其语，e代表英语）。

引用信息

若使用此数据集，请引用以下论文：

@inproceedings{yirmibesoglu-eryigit-2018-detecting, title = "Detecting Code-Switching between {T}urkish-{E}nglish Language Pair", author = {Yirmibe{c{s}}o{u{g}}lu, Zeynep and Eryi{u{g}}it, G{"u}l{c{s}}en}, booktitle = "Proceedings of the 2018 {EMNLP} Workshop W-{NUT}: The 4th Workshop on Noisy User-generated Text", month = nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W18-6115", doi = "10.18653/v1/W18-6115", pages = "110--115", }

搜集汇总

数据集介绍

构建方式

土耳其语-英语语码转换语料库的构建基于社交媒体数据的收集与分析。研究团队从社交媒体平台中提取了包含土耳其语和英语混合使用的句子，并对其进行了细致的标注。每个句子不仅保留了原始形式，还通过分词处理并标记了每个词汇的语言属性（t表示土耳其语，e表示英语）。这一过程确保了语料库在语言学和计算语言学研究中的高可用性。

特点

该语料库的显著特点在于其专注于土耳其语与英语之间的语码转换现象，这一现象在社交媒体和日常对话中日益普遍。语料库中的每个句子都经过精确的语言标记，使得研究者能够清晰地识别和分析语言转换的模式。此外，语料库的构建为自然语言处理任务，如语言检测和机器翻译，提供了宝贵的资源。

使用方法

使用该语料库时，研究者可以直接利用已标注的句子进行语言模型的训练和测试。语料库中的语言标记信息特别适用于开发能够识别和处理语码转换的算法。此外，该数据集还可用于评估和改进现有的自然语言处理工具在处理多语言混合文本时的性能。

背景与挑战

背景概述

土耳其语-英语代码转换语料库（Turkish-English code-switching corpus）由Zeynep Yirmibeşoğlu和Gülşen Eryiğit于2018年创建，旨在解决自然语言处理领域中的代码转换检测问题。该数据集首次针对土耳其语-英语语言对的代码转换现象进行了系统性研究，并通过社交媒体收集了相关数据。代码转换现象在社交媒体和口语交流中日益普遍，但其复杂性为自然语言处理带来了诸多挑战。该语料库的发布为后续研究提供了重要的数据支持，推动了代码转换检测技术的发展。

当前挑战

土耳其语-英语代码转换语料库的构建和应用面临多重挑战。首先，代码转换现象的复杂性使得语言模型的训练和评估变得困难，尤其是在多语言混合的语境下，如何准确识别和标注语言边界成为核心问题。其次，社交媒体数据的噪声和不规范性进一步增加了数据清洗和预处理的难度。此外，由于代码转换现象的多样性和动态性，现有的自然语言处理工具在处理此类数据时往往表现不佳，亟需开发更为鲁棒和适应性强的算法。这些挑战不仅体现在数据集的构建过程中，也深刻影响了相关领域的研究进展。

常用场景

经典使用场景

在自然语言处理领域，Turkish-English code-switching corpus 主要用于研究土耳其语和英语之间的代码转换现象。该数据集通过提供原始句子及其对应的语言标签，为研究者提供了一个标准化的工具，用于训练和评估代码转换检测模型。特别是在社交媒体和口语交流中，代码转换现象的频繁出现使得这一数据集成为研究多语言处理的重要资源。

衍生相关工作

基于该数据集，许多相关研究得以展开，包括改进的代码转换检测算法和多语言处理模型。例如，一些研究利用该数据集开发了基于字符级n-grams和条件随机场的检测系统，取得了显著的性能提升。这些工作不仅推动了代码转换检测技术的发展，还为其他多语言处理任务提供了新的思路和方法。

数据集最近研究