HiliSenti-v1
收藏数据集概述:HiliSenti
HiliSenti 是首个面向 希利盖农语(Hiligaynon) 的大规模多领域情感分析数据集。希利盖农语是一种南岛语系语言,在菲律宾有超过 1000 万使用者。该数据集包含 23,337 条真实世界的希利盖农语句子,许多句子带有与他加禄语和英语的自然代码混合现象,并经过人工标注为三类情感:负面、中立、正面。
数据集核心信息
- 名称: HiliSenti‑v1
- 规模: 23,337 条句子
- 标注: 情感标注(0=负面,1=中立,2=正面)
- 语言: 希利盖农语(含代码混合)
- 数据划分: 训练集 18,854 条、验证集 2,241 条、测试集 2,242 条
- 发布平台: Hugging Face Hub(数据集页面)
- DOI: 10.57967/hf/8737
- 许可证: CC BY‑NC‑SA 4.0(非商业用途,需署名)
模型与性能
- 基础模型: XLM‑RoBERTa‑large(3.55 亿参数)
- 训练方法: 跨语言迁移学习
- 测试集表现:
- 准确率: 93.5%
- F1 分数: 0.94(宏观 F1:93.36%)
- 各类别 F1 分数: 负面 0.95、中立 0.91、正面 0.94
- 模型权重: 目前仅应要求提供非商业研究使用;计划在论文发表后发布轻量级 LoRA 适配器。
仓库结构
hilisenti/ ├── README.md ├── .gitignore ├── requirements.txt # Python 依赖 ├── code/ │ └── train.py # 训练脚本(从 Hugging Face 加载数据集) └── dataset/ └── README.md # 链接至 Hugging Face 官方数据集
注意:实际的 CSV 文件(
train.csv、val.csv、test.csv)仅维护在 Hugging Face 上。
快速使用指南
1. 加载数据集
python from datasets import load_dataset dataset = load_dataset("jjjardev/hilisenti-v1") print(dataset["train"][0])
输出示例:{"sentence": "Kasadya gid sang MassKara festival subong nga tuig!", "label": 2}
2. 安装依赖
bash git clone https://github.com/jjjardev/hilisenti.git cd hilisenti pip install -r requirements.txt
3. 训练模型
bash cd code python train.py
脚本将自动下载数据集、应用文本标准化、微调 xlm-roberta-large 模型,并将最佳检查点保存至 ./hilisenti_model/。
引用方式
bibtex @dataset{jarder2026hilisenti, author = {Jarder, Jessie James T.}, title = {HiliSenti v1: A Multi‑Domain Sentiment Analysis Dataset for Hiligaynon}, year = {2026}, publisher = {Hugging Face}, doi = {10.57967/hf/8737}, url = {https://huggingface.co/datasets/jjjardev/hilisenti-v1} }




