TransCasm_Corpus

github2019-12-03 更新2024-05-31 收录

下载链接：

https://github.com/HAfli/TransCasm_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

双语讽刺推文数据集，包含英语和法语的讽刺推文及其翻译。数据集保持原始格式，每条推文及其解释显示在一行中，推文和解释之间用方括号分隔。数据集涵盖多个主题，如天气、交通、工作、学校、健康、体育政治和社交关系。

The bilingual sarcastic tweets dataset includes sarcastic tweets in both English and French, along with their translations. The dataset maintains its original format, with each tweet and its explanation displayed on a single line, separated by square brackets. It covers a variety of topics such as weather, traffic, work, school, health, sports, politics, and social relationships.

创建时间：

2017-09-28

原始信息汇总

TransCasm_Corpus 数据集概述

基本信息

名称: TransCasm_Corpus
类型: 双语讽刺推文语料库
源数据: SIGN Corpus (Peled and Reichart, 2017)
语言: 英语至法语（EN>>FR）

数据格式

编码: UTF-8
文件格式: txt
结构:
- 原始推文保留在引号内，后跟逗号和解释，也用引号括起。
- 每行包含一条推文及其解释，显示在方括号内。
- 英语推文已规范化，法语推文保留重音。

示例

英语推文示例:

[" due to the large blister on the bottom of my right foot i guess im stuck on the couch tomorrow that sucks", awesome an excuse to sit on the couch all day] [ draymond what a player, draymond is not a good player]
法语推文示例:

[ j’ai hâte d’être à demain, " je n’ai pas hâte d’être à demain"] [ j’ai hâte d’être à demain, je peux tout à fait attendre d’être à demain] [ j’ai hâte d’être à demain, " je ne suis pas pressé d’être à demain"]

统计数据

总行数: 1831
平均翻译解释数: 2.4（范围1-3）

主题

包括但不限于:
- 天气
- 交通和运输
- 工作
- 学校
- 健康
- 体育政治
- 社交关系

注意事项

推文未按主题分组。

搜集汇总

数据集介绍

构建方式

TransCasm_Corpus数据集的构建基于SIGN Coprus（Peled和Reichart，2017年），为一项双语讽刺推文语料库。该数据集选用了英文至法文的平行语料，保留了原始推文的格式，并对英文推文进行了规范化处理。每一条记录包含一个推文及其对应的讽刺性解释，以[ ]括号进行呈现，推文与解释之间以逗号分隔，英文推文重复出现以匹配其不同的解释。

特点

该数据集的特点在于，它不仅提供了原始英文推文及其法语翻译，还提供了推文的讽刺性解释，这对于研究讽刺的翻译及识别具有独特价值。数据集覆盖了1831条记录，平均每条推文拥有2.4个翻译解释，数量在1到3之间不等。内容涉及天气、交通、工作、学校、健康、体育和政治等多个主题，但推文未按主题进行分组。

使用方法

在使用TransCasm_Corpus数据集时，研究者可以直接利用其提供的UTF-8编码的文本文件。数据集的格式保持了英文推文与法语翻译的一致性，使得研究者可以方便地进行跨语言的讽刺内容分析和对比研究。此外，由于推文及其解释的重复性，该数据集也适用于机器翻译领域的训练与评估工作。

背景与挑战

背景概述

TransCasm_Corpus数据集，源于2017年Peled和Reichart的研究成果，旨在构建一个包含讽刺意味推文的双语语料库。该数据集以英语推文为源语言，法语为翻译目标语言，对推文的讽刺含义进行诠释。它以UTF-8文本格式存储，保留了原始的推文格式，同时确保法语翻译保留了重音符号。该数据集总计包含1831行，涉及天气、交通、工作等多个主题，对自然语言处理领域，特别是在讽刺文本的理解和翻译方面，具有重要的影响力。

当前挑战

数据集构建过程中的挑战主要集中于对讽刺文本的准确理解和翻译。首先，讽刺的识别本身就是一个复杂的问题，它涉及到语言的深层含义和语境理解。其次，翻译过程中的对等性保持，尤其是讽刺意味的传递，是构建该数据集的一大难点。此外，数据集在构建时还需克服如何平衡不同主题推文的分布，以及如何准确反映原推文和翻译推文之间的对应关系等挑战。

常用场景

经典使用场景

在自然语言处理领域，尤其是情感分析研究中，TransCasm_Corpus双语文本语料库因其包含讽刺性推文及其对应解释而具有重要价值。该数据集的经典使用场景在于训练机器学习模型以识别并理解讽刺语境，进而提升模型在复杂情感表达识别方面的性能。

衍生相关工作

基于TransCasm_Corpus的研究已经衍生出一系列相关工作，包括但不限于情感识别的改进算法、跨语言情感分析以及更广泛的文本蕴含和语言理解任务，这些研究进一步扩展了该数据集在自然语言处理领域的影响力和应用范围。

数据集最近研究