TeSent

Name: TeSent
Creator: SRM University AP
Published: 2025-08-03 04:42:37
License: 暂无描述

arXiv2025-08-03 更新2025-08-06 收录

下载链接：

https://huggingface.co/DSL-13-SRMAP

下载链接

链接失效反馈

官方服务：

资源简介：

TeSent 是一个全面的数据集，旨在为泰卢固语的情感分类提供一个基准。该数据集包含22505个高质量的泰卢固语示例，用于三分类（句子级别）情感分类。TeSent 数据集不仅提供了句子的真实标签，还提供了用于评估可解释性和公平性的补充数据。数据集的内容包括从多个社交媒体平台、新闻网站和网络博客中收集的泰卢固语文本，涵盖了大约20个领域。创建过程包括自定义的注释平台和精心设计的注释协议，以确保数据集的质量。TeSent 的应用领域在于解决低资源语言的情感分类问题，特别是泰卢固语，旨在促进公平、可解释和包容的自然语言处理研究。

TeSent is a comprehensive dataset developed as a benchmark for Telugu sentiment classification. It contains 22,505 high-quality Telugu examples for sentence-level three-class sentiment classification. The TeSent dataset not only provides the ground-truth labels of the sentences, but also offers supplementary data for evaluating model interpretability and fairness. The dataset consists of Telugu texts collected from multiple social media platforms, news websites and web blogs, covering approximately 20 distinct domains. Its curation process involves a custom-built annotation platform and a rigorously designed annotation protocol to ensure the high quality of the dataset. The TeSent dataset targets solving the sentiment classification problem of low-resource languages, with a specific focus on Telugu, aiming to advance fair, interpretable and inclusive natural language processing research.

提供机构：

SRM University AP

创建时间：

2025-08-03

搜集汇总

数据集介绍

构建方式

TeSent数据集的构建过程体现了对低资源语言处理的系统性考量。研究团队从YouTube、Facebook、新闻网站和博客等多元渠道爬取泰卢固语文本，覆盖约20个领域，通过严格的预处理流程（包括去除混合编码信息、重复条目和非泰卢固文本）获得初始语料。采用基于Jaccard相似度和大规模语义嵌入的双阶段去重策略，最终保留26,150个高质量句子。为确保标注质量，团队开发了定制化标注平台，设计双层标注协议（主情感标签+人工标注依据），并组建了95名母语标注者团队，通过严格的标注者筛选机制和三级质量控制体系（实时监控-后验校验-专家复核）确保数据可靠性。

特点

该数据集的核心价值在于其多维度的创新设计：1) 规模上包含22,505个泰卢固语句子，是目前该语言最大的情感分析基准；2) 首次为低资源语言整合了可解释性评估框架，每个标注包含情感标签及对应文本依据；3) 配套构建TeEEC公平性评估语料库，支持性别与宗教偏见检测；4) 领域覆盖YouTube评论（51.2%）、博客（23.8%）、新闻（15.2%）等多源数据，确保生态效度；5) 提供基于5种预训练模型（mBERT/XLM-R等）的双模式基准（含/不含人工依据）。特别值得注意的是，其标注者间一致性分数在排除中性标签后达到α=0.8992，显著优于同类资源。

使用方法

研究者可通过HuggingFace平台获取该数据集及预训练模型，支持三种典型应用场景：1) 基础情感分类任务，利用提供的三分类标签（正/负/中性）评估模型性能；2) 可解释性研究，通过对比模型注意力机制与人工标注依据的匹配度（I/F1/AUC指标），验证6种后验解释方法（LIME/SHAP等）的合理性；3) 公平性审计，使用TeEEC语料库计算极性差异分数（PDS）和平等化几率（EO），检测模型在性别/宗教维度的偏见。实验表明，引入人工依据的监督训练能使模型准确率提升2-3%，同时降低17-42%的宗教偏见指标。

背景与挑战

背景概述

TeSent是由SRM University AP的研究团队于2025年推出的首个泰卢固语情感分类基准数据集，旨在解决泰卢固语这一印度古典语言在全球自然语言处理（NLP）领域的代表性不足问题。该数据集包含22,505条高质量标注句子，覆盖社交媒体、新闻网站和博客等多领域文本，并创新性地整合了人类标注的情感依据（rationales）和公平性评估模块。作为印度德拉维达语系中使用最广泛的语言，泰卢固语拥有9600万母语者，但此前仅存在两个小型情感语料库（ACTSSA和Telugu Sentiment Corpus），且存在样本量小、标注协议不透明等问题。TeSent通过严格的跨平台数据采集、双重去重流程和基于多数投票的三标注者协议，显著提升了低资源语言情感分析的可靠性和可解释性，为泰卢固语NLP研究提供了首个支持公平性验证和模型可解释性评估的基础设施。

当前挑战

该数据集构建面临三重核心挑战：首先，在领域问题层面，需解决泰卢固语复杂的形态变化和方言差异对情感表达的干扰，例如同一情感词在不同地区可能呈现相反极性；其次，在数据构建过程中，处理社交媒体文本的代码混合现象（如泰卢固语-英语混杂）和非标准拼写导致约26%原始数据被过滤，且需开发定制化标注平台以支持双击选取依据片段的功能；最后，在公平性评估方面，需克服泰卢固语缺乏人口统计标注资源的困境，通过翻译英语公平性语料库模板并适配本地化命名规范（如选择20个常见印度教/穆斯林/基督教姓名）构建TeEEC评估语料。实验表明，即使引入依据监督训练，模型在宗教偏见评估中仍存在0.013的极性差异分数（PDS），突显低资源语言偏见缓解的长期性。

常用场景

衍生相关工作

该数据集催生了多个泰卢固语NLP的重要研究方向。基于TeSent的基准测试，研究者开发了TeBERT等专用预训练模型；其公平性评估框架启发了针对印度其他语种（如孟加拉语、马拉地语）的偏见检测研究；标注范式被扩展至代码混合文本分析领域。后续工作如Mukku等人进一步优化了泰卢固语细粒度情感分类，而Marreddy团队则利用该数据集构建了点击诱饵检测系统。

数据集最近研究