TV-shows based labelled data-set

github2022-12-12 更新2024-05-31 收录

下载链接：

https://github.com/BasRizk/DatasetAligner

下载链接

链接失效反馈

官方服务：

资源简介：

基于TV节目的标签数据集，通过两种语言的字幕文件生成语言B的数据集变体。

A tag dataset based on TV programs, generating a variant of the dataset for language B through subtitle files in two languages.

创建时间：

2022-11-24

原始信息汇总

数据集概述

数据集名称

DatasetAligner

数据集描述

该数据集是一个基于电视节目的标记数据集的变体，原始数据集使用语言A，而此变体使用语言B。数据集的生成基于两种语言的副标题文件。

数据集生成方法

数据集通过两次连续的副标题对齐生成：
1. 第一次对齐是在原始电视节目数据集（例如EmoryNLP基于FRIENDS）与语言A的副标题之间。
2. 第二次对齐是在语言A的副标题匹配窗口与语言B的副标题之间。

数据集结构

数据集通过main.py脚本生成，使用aligner模块中的ds_sub_aligner.py和sub_sub_aligner.py来匹配对话并写入dataset_generated文件夹。

数据集参数

-subtitles_a_dir: 语言A的副标题目录（默认：eng_friends_subs）
-subtitles_b_dir: 语言B的副标题目录（默认：arab_friends_subs）
-data_dir_prefix: 数据目录前缀（默认：EMORY）
-dataset_filenames: 数据集文件名（默认：EMORY_train.txt EMORY_dev.txt EMORY_test.txt）
-data_columns: 生成数据集的列（默认：speaker utterance emotion）
-dropped_columns: 删除的列（默认：空）
-data_lines_to_skip: 跳过的数据集文件行数（默认：0）
-force_unicode: 强制使用Unicode（默认：True）
-j: 并发运行的线程数（默认：os.cpu_count()-1）

数据集定义单元

Subtitle Snippet: 由一行或多行组成，基于SubRip Subtitle文件格式，包含编号和开始结束时间戳。
Subtitle Window: 由一个或多个副标题片段的行组成，其开始和结束时间戳基于所选片段的时间戳。

数据集匹配方法

数据集-副标题匹配: 通过寻找最佳匹配的副标题窗口来对齐标记数据集对话与语言A的副标题。
副标题-副标题对齐: 通过时间戳重叠来对齐副标题窗口，重叠阈值设置为0.25秒。

数据集评估指标

使用自动语音识别评估中常用的相似度测量指标，如词错误率(WER)、匹配错误率(MER)，以及使用JIWER库计算的插入、删除和替换计数。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于双语字幕文件的连续对齐过程。首先，原始数据集（如基于《老友记》的EmoryNLP数据集）与同语言的字幕文件（如英语字幕）进行对齐，找到对话与字幕的最佳匹配窗口。随后，这些匹配窗口与目标语言的字幕文件（如阿拉伯语字幕）进行二次对齐，基于时间戳的重叠完成跨语言对齐。整个过程依赖于启发式算法和相似度评分，确保对话内容在不同语言间的准确映射。

特点

该数据集的核心特点在于其跨语言对齐的能力，能够将基于电视节目的标注数据集从一种语言（如英语）转换为另一种语言（如阿拉伯语）。数据集通过字幕文件的时间戳重叠和文本相似度计算，确保对话内容的语义一致性。此外，数据集支持多线程处理，能够高效处理大规模字幕文件，同时提供灵活的配置选项，允许用户自定义对齐参数和输出格式。

使用方法

使用该数据集时，用户需通过`main.py`脚本运行对齐过程。脚本支持配置字幕文件路径、数据集前缀、列名选择等参数，并利用`aligner`模块中的`ds_sub_aligner`和`sub_sub_aligner`完成对话与字幕的匹配。对齐结果将生成在`dataset_generated`文件夹中。用户可根据需求调整线程数、强制Unicode编码等参数，以优化对齐效率和输出质量。

背景与挑战

背景概述

TV-shows based labelled data-set 是一个基于电视剧字幕的多语言对齐数据集，旨在通过字幕文件在不同语言之间生成标注数据。该数据集的核心研究问题在于如何有效地将一种语言的标注数据（如情感、对话等）通过字幕文件对齐到另一种语言中，从而为跨语言的自然语言处理任务提供支持。该数据集的构建基于EmoryNLP等现有数据集，并通过字幕文件的双重对齐机制实现跨语言数据生成。这一研究不仅推动了多语言情感分析和对话系统的进展，还为跨语言数据生成提供了新的方法论。

当前挑战

该数据集在构建过程中面临多重挑战。首先，字幕文件与标注数据之间的对齐需要高精度的文本匹配技术，尤其是在面对字幕翻译中的增删改时，如何保持语义一致性成为关键问题。其次，跨语言对齐依赖于时间戳的重叠，但由于不同语言字幕的时间轴可能存在微小差异，如何设定合理的时间重叠阈值以平衡精度与召回率是一个技术难点。此外，字幕文件的格式多样性和翻译质量的不一致性也对数据生成过程提出了更高的要求。这些挑战不仅影响了数据集的构建效率，也对最终生成数据的质量提出了更高的标准。

常用场景

经典使用场景

在自然语言处理领域，TV-shows based labelled data-set 数据集常用于跨语言对话对齐和情感分析研究。通过利用电视剧字幕文件，该数据集能够提供多语言对话的精确对齐，为研究者提供了一个丰富的多语言情感标注资源。特别是在处理多语言对话系统时，该数据集能够帮助研究者理解不同语言之间的情感表达差异，从而提升跨语言情感分析的准确性。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，研究者开发了基于多语言对齐的情感分析模型，显著提升了跨语言情感分类的准确性。此外，该数据集还催生了一系列关于字幕与对话对齐算法的研究，特别是在自动语音识别领域，这些算法被广泛应用于提升字幕生成和翻译的精度。这些工作不仅推动了多语言情感分析的发展，还为跨语言对话系统的研究提供了重要的理论基础。

数据集最近研究