LHUThacSi/comment_mu
收藏Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/LHUThacSi/comment_mu
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: sentiment
dtype:
class_label:
names:
'0': negative
'1': neutral
'2': positive
- name: sample_group
dtype: string
- name: created_at
dtype: string
splits:
- name: train
num_bytes: 1796455
num_examples: 13200
- name: test
num_bytes: 466015
num_examples: 3300
download_size: 1198214
dataset_size: 2262470
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
---
annotations_creators:
- machine-generated
language:
- vi
language_creators:
- found
license: cc-by-4.0
multilinguality:
- monolingual
pretty_name: MU Vietnamese Sentiment Dataset
size_categories:
- 10K<n<100K
source_datasets:
- original
tags:
- sentiment-analysis
- vietnamese
- football
- manchester-united
- youtube-comments
task_categories:
- text-classification
task_ids:
- sentiment-classification
---
# MU Vietnamese Sentiment Dataset
## Dataset Description
Bộ dữ liệu bình luận tiếng Việt về **Manchester United** được thu thập từ YouTube, phục vụ bài toán phân tích cảm xúc (Sentiment Analysis) trong domain bóng đá.
### Dataset Summary
Đây là bộ dữ liệu đầu tiên tập trung vào bình luận của người hâm mộ Manchester United bằng tiếng Việt, bao gồm các bình luận từ các kênh bóng đá uy tín tại Việt Nam trong giai đoạn 2021–2026.
### Supported Tasks
- **Text Classification / Sentiment Analysis**: Phân loại cảm xúc bình luận thành 3 nhãn: `positive`, `negative`, `neutral`
### Languages
- Tiếng Việt (`vi`)
---
## Dataset Structure
### Data Fields
| Field | Type | Description |
|---|---|---|
| `text` | string | Nội dung bình luận gốc |
| `sentiment` | string | Nhãn cảm xúc: `positive`, `negative`, `neutral` |
| `sample_group` | string | Nhóm lấy mẫu: `keyword` hoặc `random` |
| `created_at` | string | Thời gian đăng bình luận (ISO format) |
| `video_title` | string | Tiêu đề video YouTube |
| `channel` | string | Kênh YouTube nguồn |
| `likes` | int | Số lượt thích bình luận |
### Data Splits
| Split | Size |
|---|---|
| Train | 13,200 (80%) |
| Test | 3,300 (20%) |
| **Total** | **16,500** |
### Label Distribution
| Label | Count | Percentage |
|---|---|---|
| negative | 6,628 | 40.2% |
| positive | 4,954 | 30.0% |
| neutral | 4,918 | 29.8% |
---
## Dataset Creation
### Source Data
Dữ liệu được thu thập từ **YouTube Data API v3** trong giai đoạn 2021–2026, bao gồm:
- Bình luận từ các kênh bóng đá tiếng Việt (BĐTV, 90phut, ON Football...)
- Bình luận từ video highlight, phân tích trận đấu, tin tức chuyển nhượng liên quan đến Manchester United
### Annotation Process
Nhãn cảm xúc được gán tự động bằng **Claude API (claude-haiku-4-5)** theo phương pháp *silver labeling*:
- **Positive**: Bình luận thể hiện sự ủng hộ, khen ngợi, vui mừng về MU hoặc cầu thủ
- **Negative**: Bình luận thể hiện sự thất vọng, chỉ trích, chê bai MU hoặc cầu thủ
- **Neutral**: Bình luận mang tính thông tin, hỏi đáp, không rõ cảm xúc
Prompt được thiết kế bao gồm ngữ cảnh domain bóng đá và danh sách slang đặc trưng của cộng đồng fan MU Việt Nam (ví dụ: "ra hang" = MU thua, "bệu" = biệt danh MU, "man đần" = cách gọi chế).
### Sampling Strategy
Dữ liệu được lấy mẫu theo chiến lược kết hợp:
- **Keyword-based (60-80%)**: Lọc các bình luận chứa từ khoá đặc trưng (MU, quỷ đỏ, ra hang, Amorim, Carrick...)
- **Random (20-40%)**: Lấy ngẫu nhiên để đảm bảo tính đại diện
---
## Usage
```python
from datasets import load_dataset
ds = load_dataset("LHUThacSi/comment_mu")
# Xem data
print(ds["train"][0])
# {
# "text": "MU mùa này đá hay quá, thích lắm!",
# "sentiment": "positive",
# ...
# }
# Dùng với PhoBERT fine-tuned
from transformers import pipeline
clf = pipeline("text-classification", model="LHUThacSi/phobert-mu-sentiment")
clf("MU mùa này ra hang quá, chán thật")
# [{"label": "negative", "score": 0.92}]
```
---
## Related Models
- **[LHUThacSi/phobert-mu-sentiment](https://huggingface.co/LHUThacSi/phobert-mu-sentiment)**: PhoBERT-large fine-tuned trên dataset này, đạt **Macro F1 = 0.734**
---
## Limitations
- Dữ liệu phân bổ không đều theo thời gian (tập trung 2025–2026)
- Nhãn được gán tự động bằng LLM, không phải nhãn thủ công hoàn toàn
- Slang và teencode tiếng Việt có thể ảnh hưởng đến chất lượng nhãn
- Chỉ bao gồm bình luận tiếng Việt, không có bình luận tiếng Anh
---
## Citation
```bibtex
@misc{pham2026mu,
author = {Pham, Minh Luan},
title = {{MU Vietnamese Sentiment Dataset}:
A Vietnamese Sentiment Analysis Dataset
for Manchester United Football Comments},
year = {2026},
howpublished = {\url{https://huggingface.co/datasets/LHUThacSi/comment_mu}},
note = {Accessed: March 2026.
Lac Hong University, Vietnam}
}
```
---
## Contact
- **Author**: Phạm Minh Luân
- **Institution**: Trường Đại học Lạc Hồng
- **HuggingFace**: [LHUThacSi](https://huggingface.co/LHUThacSi)
提供机构:
LHUThacSi



