five

TeClass

收藏
arXiv2024-04-17 更新2024-06-21 收录
下载链接:
https://github.com/ltrc/TeClass
下载链接
链接失效反馈
官方服务:
资源简介:
TeClass是首个针对泰卢固语新闻标题分类的人工标注数据集,由IIIT海得拉巴的语言技术研究中心创建。该数据集包含26,178对新闻文章与标题,共计78,534个标注,覆盖多个新闻领域。数据集通过网络爬虫从多个新闻网站收集,并由泰卢固语母语者进行标注,分为高度相关、中度相关和低度相关三个类别。TeClass旨在解决低资源语言中新闻标题生成模型的性能问题,通过提供高质量的相关性标注数据,帮助模型生成更相关的新闻标题。

TeClass is the first manually annotated dataset for Telugu news headline classification, created by the Language Technology Research Center at IIIT Hyderabad. This dataset contains 26,178 pairs of news articles and headlines, with a total of 78,534 annotations, covering multiple news domains. It was collected from multiple news websites via web crawling, and annotated by native Telugu speakers, categorized into three classes: highly relevant, moderately relevant, and lowly relevant. TeClass aims to resolve the performance limitations of news headline generation models in low-resource languages, by providing high-quality relevance-annotated data to assist these models in generating more relevant news headlines.
提供机构:
语言技术研究中心,KCIS,IIIT海得拉巴,印度
创建时间:
2024-04-17
搜集汇总
数据集介绍
main_image_url
构建方式
在泰卢固语新闻文本处理领域,数据稀缺性长期制约着相关研究进展。TeClass数据集的构建始于从多个新闻网站系统性地爬取文章-标题对,覆盖了州级、国家级、国际、娱乐、体育、商业、政治、犯罪及新冠疫情等多元新闻领域。为规避单一来源的报道风格偏差,研究团队针对不同网站的结构特性开发了定制化爬虫,精确提取文章正文、标题及新闻域名,并过滤广告、相关文章链接及嵌入式社交媒体内容等噪声。随后,通过众包方式邀请母语为泰卢固语的志愿者进行人工标注,每对数据由三名标注者根据详尽指南独立判断其相关性,划分为高度相关、中度相关和低度相关三类,最终类别依据多数表决原则确定。为确保标注质量,团队进行了试点研究以优化指南清晰度,并通过定期答疑会处理模糊案例,最终获得的弗莱斯卡帕系数高达0.77,表明标注者间具有高度一致性。
特点
作为首个针对泰卢固语新闻标题相关性分类的人工标注数据集,TeClass展现出显著的多样性与规模性。该数据集囊括了26,178个独特的文章-标题对,并衍生出78,534条标注记录,其内容跨越了九个不同的新闻领域和多个独立新闻网站,有效避免了领域或来源的单一性偏差。数据划分遵循70%训练、15%开发和15%测试的比例,并采用分层抽样策略确保三个相关性类别在各子集中均匀分布,从而保障了模型评估的公正性。数据内部结构分析显示,文章平均包含约10个句子和126个词元,而标题则高度凝练,平均仅由1个句子和6个词元构成,这种对比鲜明地体现了新闻标题的摘要特性。数据集的构建深刻反映了低资源语言新闻生态中标题质量参差不齐的现实,为研究标题与文章内容的一致性提供了高质量的基础资源。
使用方法
TeClass数据集主要服务于新闻标题相关性分类与生成两大核心任务。在分类任务中,研究者可利用其训练和评估各类模型,从基于TF-IDF向量、余弦相似度、LEAD-1分数等手工特征的传统机器学习模型,到基于mBERT、XLM-RoBERTa、MuRIL等预训练Transformer架构的深度模型。输入格式通常将标题与文章正文以特定分隔符拼接,模型据此学习判别二者关联的紧密程度。在生成任务中,该数据集的价值尤为突出:通过筛选出高度相关的文章-标题对作为训练数据,可以显著提升摘要式标题生成模型的质量。实验表明,仅使用高度相关数据对mT5等生成模型进行微调,能在ROUGE-L指标上获得约5分的提升,这验证了高质量数据对于低资源语言生成任务的关键作用。因此,该数据集不仅可用于开发分类器以过滤噪声标题,更能作为纯净语料库来驱动更精准、更相关的自动标题生成系统。
背景与挑战
背景概述
在自然语言处理领域,新闻标题生成与分类是提升信息传播效率的关键任务。2024年,印度海得拉巴国际信息技术学院语言技术研究中心的研究团队推出了TeClass数据集,这是首个针对泰卢固语新闻标题相关性分类的人工标注数据集。该数据集包含26,178个文章-标题对,标注为高度相关、中度相关和低度相关三类,旨在解决低资源语言中标题生成模型因数据噪声导致的性能瓶颈问题。TeClass的构建不仅填补了泰卢固语在标题分类研究中的数据空白,还为多语言自然语言处理提供了重要的基准资源,推动了跨语言信息抽取与生成技术的发展。
当前挑战
TeClass数据集面临的挑战主要体现在两个方面:在领域问题层面,新闻标题相关性分类需应对泰卢固语作为低资源语言的语义复杂性,包括词汇形态丰富、句法结构多样以及文化语境差异,这导致模型难以准确区分高度相关与中度相关标题的细微差别。在构建过程中,数据采集面临多源新闻网站结构异构的挑战,需开发定制化爬虫以排除广告等噪声;标注阶段则需克服标注者主观偏差,通过设计精细的标注指南与多数投票机制确保数据质量,同时处理类别分布不均衡对模型训练的潜在影响。
常用场景
经典使用场景
在泰卢固语新闻文本处理领域,TeClass数据集为相关性标题分类任务提供了关键支撑。该数据集通过人工标注将新闻标题与对应文章的关系划分为高度相关、中度相关和低度相关三类,为构建自动化标题分类模型奠定了数据基础。其典型应用场景包括训练深度学习模型以识别标题与正文的语义关联度,尤其在处理低资源语言时,能够有效区分事实性报道与煽动性内容,为后续的文本生成任务提供高质量的数据筛选机制。
实际应用
在实际应用中,TeClass数据集可被新闻聚合平台用于自动化过滤误导性或低相关性标题,提升内容推荐系统的质量。媒体机构可借助该数据集训练模型,辅助编辑快速识别标题与文章内容的匹配度,减少人工审核成本。此外,在虚假新闻检测场景中,基于相关性分类的模型能够有效识别标题与正文存在语义偏差的报道,为网络信息治理提供技术工具。
衍生相关工作
TeClass数据集推动了多项相关研究,例如基于多语言BERT模型的标题分类器优化工作,其中mDeBERTa等预训练模型在该数据集上实现了显著的性能提升。同时,该数据集启发了标题生成任务的改进,研究者通过筛选高度相关的新闻对训练生成模型,使ROUGE-L评分提高约5个百分点。后续工作还扩展至其他低资源语言的类似数据集构建,并促进了新闻可信度评估与多模态内容生成领域的交叉研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作