five

hilisenti-v1

收藏
Hugging Face2026-05-11 更新2026-05-12 收录
下载链接:
https://huggingface.co/datasets/jjjardev/hilisenti-v1
下载链接
链接失效反馈
官方服务:
资源简介:
HiliSenti v1是首个用于希利盖农语(Hiligaynon)的多领域情感分析数据集,旨在填补该语言资源匮乏的空白。希利盖农语是菲律宾的一种维萨扬语,使用人口超过1000万。数据集包含23,337个真实世界的希利盖农语句子,每个句子手动标注为负面、中性或正面情感(分别映射为整数0、1、2)。数据特点包括自然混合希利盖农语、他加禄语和英语的语码转换现象,反映了实际语言使用情况。数据来源于四个领域:本地希利盖农语新闻(约10,000句,多为单语)、社交媒体(约2,000句,包含口语化表达和语码转换)、跨语言翻译(约5,600句,将他加禄语和英语语料翻译并重新标注)和合成数据(约5,600句,覆盖边缘案例如讽刺和歧义)。所有文本经过小写化和针对希利盖农语的规范化处理。数据集已预先划分为训练集(18,854句)、验证集(2,241句)和测试集(2,242句),标签分布大致均衡。测试集在模型开发中被完全保留。该数据集支持文本分类/情感分析任务,也可用于研究跨语言学习、语码转换检测等。配套的微调xlm-roberta-large模型在测试集上达到93.5%准确率。注意:数据集包含真实姓名、地点、暴力等内容,未进行匿名化,采用CC BY-NC-SA 4.0许可。

HiliSenti v1 is the first multi-domain sentiment analysis dataset for Hiligaynon, a Visayan language in the Philippines with over 10 million speakers, aiming to address the lack of annotated sentiment analysis corpora for this under-resourced language. It contains 23,337 real-world Hiligaynon sentences, each manually annotated with sentiment labels as negative, neutral, or positive (mapped to integers 0, 1, 2). A key feature is the natural code-switching between Hiligaynon, Tagalog, and English, reflecting actual language use in the community. Data is sourced from four domains: local Hiligaynon news (about 10,000 sentences, mostly monolingual), social media (about 2,000 sentences, with colloquial expressions and code-switching), cross-lingual translation (about 5,600 sentences, translated from Tagalog and English corpora and re-annotated), and synthetic data (about 5,600 sentences, covering edge cases like sarcasm and ambiguity). All text is lowercased and normalized for Hiligaynon. The dataset is pre-split into training (18,854 sentences), validation (2,241 sentences), and test (2,242 sentences) sets, with roughly balanced label distribution. The test set was held out during model development. It supports text classification/sentiment analysis tasks and can be used for cross-lingual zero-shot/transfer learning, code-switching detection, and dialect variation research. A fine-tuned xlm-roberta-large model achieves 93.5% accuracy on the test set. Note: The dataset contains real names, locations, and graphic depictions of violence, and is not anonymized; it is licensed under CC BY-NC-SA 4.0.
创建时间:
2026-05-10
原始信息汇总

HiliSenti v1 数据集概述

基本信息

  • 数据集名称:HiliSenti v1
  • 语言:Hiligaynon(主要语言),包含他加禄语和英语的语码转换片段
  • 许可证:Creative Commons Attribution‑NonCommercial‑ShareAlike 4.0 International (CC BY‑NC‑SA 4.0)
  • DOI10.57967/hf/8737
  • 数据集规模:10,000–100,000 条样本
  • 任务类别:文本分类(情感分析)
  • 数据创建者:Jessie James T. Jarder

数据集摘要

HiliSenti v1 是首个针对 Hiligaynon(菲律宾一种使用人数超过1000万的米沙鄢语言)的多领域情感分析数据集。该数据集包含 23,337 条真实的 Hiligaynon 句子,其中许多句子自然地混合了他加禄语和英语的语码转换,每条句子均被手动标注为 负面中性正面 情感标签(分别映射为整数 0、1、2)。

数据来源于四个不同的领域,以最大化语言和风格的多样性:

  • 本地 Hiligaynon 新闻(Digicast Negros,约10,000条句子)
  • 社交媒体(公开的Facebook页面和Reddit社区,约2,000条句子)
  • 跨语言翻译(约5,600条句子),来自现有的他加禄语产品评论和英语学生反馈语料库,通过Gemini 3翻译并重新标注
  • 合成数据(约5,600条句子),由Gemini 3生成,用于覆盖边缘情况——如讽刺、语境性语气词歧义和极端情感

支持的任务和指标

  • 文本分类 / 情感分析:将 Hiligaynon(或语码转换)句子分类为负面、中性或正面。推荐模型:xlm-roberta-large
  • 评估指标:准确率、精确率、召回率、宏观F1分数
  • 其他潜在应用:语码转换检测、语言识别、方言变异研究

数据字段

字段 类型 描述
sentence string Hiligaynon文本(小写,保留标点),可能包含他加禄语或英语的语码转换
label int 情感标签:0 = 负面,1 = 中性,2 = 正面

数据划分

划分 句子数 负面 (0) 中性 (1) 正面 (2)
训练集 18,854 6,817 5,834 6,203
验证集 2,241 ~810 ~694 ~737
测试集 2,242 828 633 781
总计 23,337 ~8,455 ~7,161 ~7,721

测试集在模型开发期间完全保留,从未用于超参数调优。

数据来源与创建过程

数据收集与处理

  1. 模型引导的数据集设计:基于 xlm‑roberta‑large 的能力设计数据集,刻意从多个领域采集数据,迫使模型学习广义的 Hiligaynon 语义。
  2. 网络爬取(Digicast Negros):从新闻网站提取约30,000条句子,经人工筛选保留10,000条高质量句子作为正式新闻领域。
  3. 社交媒体筛选:从Facebook公开页面和Reddit社区(r/Iloilo、r/Bacolod)采样约2,000条句子,引入口语化和语码转换结构。
  4. 跨语言翻译:将两个现有数据集(他加禄语产品评论、英语学生反馈)翻译为 Hiligaynon,同步映射情感标注,获得约5,600条翻译句子。
  5. 定向合成增强:针对基线模型识别的边缘情况(讽刺、错误启发式、语境相关中性句),利用Gemini 3生成约5,600条合成句子,所有条目经人工审核后纳入。
  6. 规范化:所有文本经小写化和自定义 Hiligaynon 特定流水线处理(扩展缩写、减少重复笑声标记、拼写约定映射),未进行PII清洗或实体匿名化。

数据生产者

  • Digicast Negros 记者(正式新闻文本)
  • 菲律宾社交媒体用户(Facebook、Reddit,非正式对话文本)
  • 原始数据集创建者(翻译部分的EricEchemane、Jayaprakashpondy)
  • Google Gemini 3(合成边缘情况句子)

标注过程

  • 新闻和社交媒体部分:数据集创建者(母语为Hiligaynon)手动标注
  • 翻译部分:继承原始数据集标签并验证
  • 合成数据:由生成提示词分配标签并人工抽查
  • 所有最终标签由创建者审核,歧义情况与研究顾问讨论后解决

注意事项

敏感信息

本数据集包含个人身份信息。数据中出现了真实的个人姓名(公务员、犯罪嫌疑人、受害者)、具体街道和描笼涯名称,以及事件的详细描述。由于数据来源于公开来源(新闻报道、社交媒体),且为保留语言真实性,未进行任何匿名化处理。用户如需匿名化数据,应自行应用NER/清洗流水线。

偏见与局限性

  • 地理偏见:大部分句子源自西内格罗斯省,可能低估其他 Hiligaynon 方言
  • 领域偏见:新闻领域句子过度代表负面事件(犯罪、事故、灾难)
  • 合成数据局限:合成数据由英语为中心的大语言模型生成,可能包含非母语人工制品
  • 任务局限:仅支持基本的三类情感分类,不包括细粒度情感检测、反讽、讽刺或特定主题标签
  • 语码转换分布:语码转换主要集中在社交媒体和翻译领域,新闻领域多为单语 Hiligaynon

引用信息

BibTeX: bibtex @inproceedings{jarder2026hilisenti, title = {HiliSenti: A Multi‑Domain Sentiment Analysis Dataset and Model for Hiligaynon}, author = {Jarder, Jessie James T.}, booktitle = {Proceedings of the ACL}, year = {2026}, doi = {10.57967/hf/8737}, note = {To appear} }

搜集汇总
数据集介绍
main_image_url
构建方式
HiliSenti v1的构建基于多源数据融合策略,旨在覆盖Hiligaynon语言的多样性与复杂性。数据集从四个渠道采集:本地新闻网站Digicast Negros(约10,000句)、社交媒体平台(Facebook与Reddit,约2,000句)、跨语言翻译(源自他加禄语产品评论和英语学生反馈语料,经Gemini 3翻译并重新标注,约5,600句),以及针对边缘案例(如讽刺、语境粒子歧义)生成的合成数据(约5,600句)。所有文本经Hiligaynon专用流水线进行标准化处理,如扩展缩写和拼写映射,但保留代码切换现象。标注采用人机混合流程:新闻与社交媒体部分由母语者手动标注,翻译数据继承原始标签后验证,合成数据由生成提示分配并经人工抽检,最终由作者逐条复核。
特点
该数据集的核心特征在于其多领域覆盖与代码切换的真实性。23,337条样本涵盖新闻、社交媒体、翻译及合成四类语域,其中新闻文本多为纯Hiligaynon,而社交媒体与翻译数据频繁混入他加禄语和英语片段,反映了菲律宾语言生态的自然面貌。数据标签为三分类情感(消极、中性、积极),分布相对均衡。特别地,数据集保留了真实姓名、地名及暴力事件描述,未经匿名化处理,以维持语料原真性。此外,它作为首个Hiligaynon情感语料,填补了极低资源语言在这一领域的空白,并配套了基于xlm-roberta-large的高性能模型(测试准确率93.5%)。
使用方法
数据集可直接用于情感分类任务的微调与评估,推荐加载格式为包含'sentence'和'label'字段的CSV或Hugging Face Dataset对象。用户可通过Hugging Face平台调用'datasets'库轻松获取:`load_dataset('jjjardev/hilisenti-v1')`,并利用预定义划分(训练集18,854句、验证集2,241句、测试集2,242句)进行模型开发。除标准情感分析外,还可用于跨语言零样本迁移学习、代码切换检测及方言变异研究,但需注意其局限性:仅支持三分类,缺乏细粒度情感与方面级标注。鉴于数据包含敏感信息,使用者应依据机构伦理规范实施匿名化或过滤处理。
背景与挑战
背景概述
HiliSenti v1是首个面向希利盖农语的多领域情感分析数据集,由Jessie James T. Jarder于2025年前后创建,旨在填补这一极端低资源语言在情感标注语料上的空白。希利盖农语是菲律宾超过一千万人口的母语,但受限于其独特的形态句法和频繁的语码转换现象,现有基于他加禄语或英语的情感工具难以直接迁移应用。该数据集汇集了新闻、社交媒体、跨语言翻译及合成文本四大来源,共计23337条真实语句,每条均经母语者人工标注为消极、中性或积极三类情感标签。其发布不仅为希利盖农语社区的自然语言处理研究奠定了数据基础,也为跨语言迁移学习在低资源场景下的实践提供了重要参考范例。
当前挑战
相关领域面临的挑战在于,希利盖农语作为极端低资源语言,此前缺乏任何标注情感语料,且其语码混用现象显著,传统跨语言模型难以有效捕获混合语境下的语义信息。数据构建过程中遇到的困难包括:新闻领域数据需从约三万个原始句子中手动筛选出情感可判读的优质样本;社交媒体内容虽能反映口语化表达,但仅靠人工采集与标注产出有限;为确保模型对讽刺、语境敏感词等边界情况具备鲁棒性,需借助大语言模型定向生成合成数据,再经母语者逐一核验;而所有来源均保留真实的个人信息与暴力描述,未做匿名化处理,这对后续使用者的隐私合规与伦理审查提出了额外挑战。
常用场景
经典使用场景
在低资源语言自然语言处理研究中,HiliSenti v1作为首个面向希利盖农语的多领域情感分析基准数据集,为文本分类任务提供了坚实的实验平台。研究者通常基于该数据集中的23,337条句级标注样本,训练诸如XLM-RoBERTa等跨语言预训练模型,进而在Negative、Neutral、Positive三分类框架下评估模型性能。其经典之处在于融合了新闻语体、社交媒体语体、跨语言翻译语料与合成数据,能够充分检验模型对真实世界语码混合现象与领域偏移的鲁棒性,因而成为推动低资源菲律宾语言情感分析研究的核心参照。
解决学术问题
该数据集直面希利盖农语长期缺乏标注语料库的学术困境,系统性地解决了低资源语言情感分析中的两大核心挑战:其一,弥合了跨语言迁移学习在形态句法截然不同的语种上的性能鸿沟,为验证多语言模型在极度匮乏资源条件下的泛化能力提供了可信的数据支撑;其二,通过对语码混合、讽刺表达及情感歧义等边缘情况的针对性增强,揭示了传统情感标注范式在复杂言语情境中的局限性。其学术意义在于首次为约一千万希利盖农语使用者构建了高质量的情感分析基准,极大推动了菲律宾语族NLP生态的扩展。
衍生相关工作
HiliSenti v1的发布催生了多项相关研究。其一是基于XLM-RoBERTa-large微调的高性能情感分类模型,以93.5%的测试准确率和93.4%的宏F1分数验证了该数据集的有效性,为后续模型压缩与适配器方法的探索奠定了基线。其二,该数据集启发了族内其他低资源语言,如宿务语与瓦瑞语,情感语料库的构建工作,形成菲律宾语族情感分析的支架体系。此外,围绕语码混合检测与方言变异研究,学者们开始利用该数据集中的语码混合样本设计专用的语言识别特征,进一步拓展了其作为跨学科研究资源的影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作