HiliSenti-v1

github2026-05-11 更新2026-05-13 收录

下载链接：

https://github.com/jjjardev/hilisenti

下载链接

链接失效反馈

官方服务：

资源简介：

HiliSenti是第一个用于Hiligaynon语（菲律宾超过1000万人使用的南岛语系语言）的大规模多领域情感分析数据集。该数据集包含23,337个真实世界的Hiligaynon句子（许多句子自然混合了Tagalog和英语），并手动标注了情感（负面、中性、正面）。数据集在Hugging Face Hub上公开可用，分为训练集（18,854个）、验证集（2,241个）和测试集（2,242个）。

HiliSenti is the first large-scale multi-domain sentiment analysis dataset for Hiligaynon, an Austronesian language spoken by over 10 million people in the Philippines. This dataset contains 23,337 real-world Hiligaynon sentences, many of which naturally mix Tagalog and English, and is manually annotated with sentiment labels (negative, neutral, positive). It is publicly available on the Hugging Face Hub, and is split into training (18,854 samples), validation (2,241 samples) and test (2,242 samples) sets.

创建时间：

2026-05-11

原始信息汇总

数据集概述：HiliSenti

HiliSenti 是首个面向 希利盖农语（Hiligaynon） 的大规模多领域情感分析数据集。希利盖农语是一种南岛语系语言，在菲律宾有超过 1000 万使用者。该数据集包含 23,337 条真实世界的希利盖农语句子，许多句子带有与他加禄语和英语的自然代码混合现象，并经过人工标注为三类情感：负面、中立、正面。

数据集核心信息

名称: HiliSenti‑v1
规模: 23,337 条句子
标注: 情感标注（0=负面，1=中立，2=正面）
语言: 希利盖农语（含代码混合）
数据划分: 训练集 18,854 条、验证集 2,241 条、测试集 2,242 条
发布平台: Hugging Face Hub（数据集页面）
DOI: 10.57967/hf/8737
许可证: CC BY‑NC‑SA 4.0（非商业用途，需署名）

模型与性能

基础模型: XLM‑RoBERTa‑large（3.55 亿参数）
训练方法: 跨语言迁移学习
测试集表现:
- 准确率: 93.5%
- F1 分数: 0.94（宏观 F1：93.36%）
- 各类别 F1 分数: 负面 0.95、中立 0.91、正面 0.94
模型权重: 目前仅应要求提供非商业研究使用；计划在论文发表后发布轻量级 LoRA 适配器。

仓库结构

hilisenti/ ├── README.md ├── .gitignore ├── requirements.txt # Python 依赖 ├── code/ │ └── train.py # 训练脚本（从 Hugging Face 加载数据集） └── dataset/ └── README.md # 链接至 Hugging Face 官方数据集

注意：实际的 CSV 文件（train.csv、val.csv、test.csv）仅维护在 Hugging Face 上。

快速使用指南

1. 加载数据集

python from datasets import load_dataset dataset = load_dataset("jjjardev/hilisenti-v1") print(dataset["train"][0])

输出示例：{"sentence": "Kasadya gid sang MassKara festival subong nga tuig!", "label": 2}

2. 安装依赖

bash git clone https://github.com/jjjardev/hilisenti.git cd hilisenti pip install -r requirements.txt

3. 训练模型

bash cd code python train.py

脚本将自动下载数据集、应用文本标准化、微调 xlm-roberta-large 模型，并将最佳检查点保存至 ./hilisenti_model/。

引用方式

bibtex @dataset{jarder2026hilisenti, author = {Jarder, Jessie James T.}, title = {HiliSenti v1: A Multi‑Domain Sentiment Analysis Dataset for Hiligaynon}, year = {2026}, publisher = {Hugging Face}, doi = {10.57967/hf/8737}, url = {https://huggingface.co/datasets/jjjardev/hilisenti-v1} }

搜集汇总

数据集介绍

构建方式

HiliSenti-v1数据集是首个面向希利盖农语的大规模多领域情感分析数据集。该语言属于南岛语系，在菲律宾有超过1000万使用者。数据集构建过程中，研究者从真实世界的多种来源收集了共计23,337条希利盖农语句，这些语句自然融合了他加禄语和英语的语码混合现象。每条语句均由人工标注为负面、中立或正面三种情感类别。数据集被划分为训练集（18,854条）、验证集（2,241条）和测试集（2,242条），并通过Hugging Face Hub公开发布。

使用方法

用户可通过Hugging Face Datasets库直接加载使用该数据集，仅需调用`load_dataset("jjjardev/hilisenti-v1")`即可获取训练、验证和测试分片。数据集中每条样本包含`sentence`字段（原始语句）和`label`字段（0表示负面，1表示中立，2表示正面）。研究者可参照仓库内提供的`train.py`脚本，在安装依赖后执行训练流程，该脚本会自动下载数据集、应用希利盖农语文本标准化处理，并以与论文一致的超参数对XLM-RoBERTa-large模型进行微调，最终保存最佳检查点。

背景与挑战

背景概述

在自然语言处理领域，情感分析作为一项关键任务，能够自动识别文本中蕴含的情感倾向，广泛应用于舆情监控、产品反馈分析等场景。然而，绝大多数情感分析数据集集中于英语等高资源语言，导致低资源语言在相关研究中长期处于边缘地位。Hiligaynon语作为一种在菲律宾拥有超过1000万使用者的南岛语系语言，其情感分析研究几乎处于空白状态。为此，研究者Jessie James T. Jarder于2026年创建了HiliSenti-v1数据集，这是首个面向Hiligaynon语的大规模多领域情感分析数据集，包含23337条真实语料。该数据集的发布不仅填补了该语言在情感分析领域的资源空缺，还为跨语言迁移学习在极端低资源语言场景下的应用提供了宝贵实验平台，有力推动了低资源语言自然语言处理技术的发展。

当前挑战

HiliSenti-v1所解决的核心领域问题在于，Hiligaynon语情感分析面临数据极度匮乏的困境，此前几乎不存在高质量的标注语料。构建过程中，研究者需克服多重挑战：首先，Hiligaynon语常常与塔加洛语和英语发生自然语码混合，这种多语言混合现象大大增加了文本标准化与情感标注的难度；其次，来自不同领域（如社交媒体、新闻评论、产品评价等）的语料在语言风格、情感表达方式上差异显著，要求标注规则具有跨域鲁棒性；此外，由于Hiligaynon语缺乏成熟的自然语言处理工具链，语料收集、清洗与标注均需依赖人工经验，工作量大且需严格控制标注一致性。

常用场景

经典使用场景

在自然语言处理与低资源语言研究的交汇处，HiliSenti-v1作为首个大规模多领域希利盖农语情感分析数据集，为跨语言情感分类提供了不可或缺的基准资源。经典使用场景聚焦于对希利盖农语句（常混有他加禄语和英语代码转换）进行三分类情感判别（消极、中性、积极），研究者可借助Hugging Face接口直接加载并复现端到端训练流程。该数据集尤其适用于验证跨语言迁移学习在极端低资源场景下的有效性，其精细的领域覆盖与高质量人工标注为算法鲁棒性评估构建了坚实且可比的测试平台。

解决学术问题

该数据集直面长期困扰学界的两大痛点：东南部菲律宾语言在情感分析资源上的系统性缺失，以及代码转换现象对传统单语模型的性能挑战。通过提供23,337条真实标注样本并配套微调的XLM-RoBERTa-large模型，HiliSenti-v1填补了超过千万使用者语言的情感计算空白。研究成果实证表明跨语言迁移学习可突破数据稀缺瓶颈，达到93.5%准确率与0.94的宏F1分数，这为低资源语言的语义智能处理开辟了新路径，也推动了多语种情感分析理论向更具包容性的方向发展。

实际应用

在实际应用层面，HiliSenti-v1所释放的稀缺语言标注能力直接服务于菲律宾西米沙鄢地区的数字生态建设。它可赋能社交媒体内容监控系统，精准捕捉希利盖农用户在公共平台上的情绪倾向，辅助政府与企业在舆情分析、灾害响应和市场营销中做出及时决策。同时，该数据集为本地化智能客服、教育辅助工具及健康信息反馈系统提供了语言理解基座，使得算法能够理解亿万少数语言使用者的真实意图与情感波动，真正实现技术普惠的民族语言服务落地。

数据集最近研究