five

LHUThacSi/comment_mu

收藏
Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/LHUThacSi/comment_mu
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string - name: sentiment dtype: class_label: names: '0': negative '1': neutral '2': positive - name: sample_group dtype: string - name: created_at dtype: string splits: - name: train num_bytes: 1796455 num_examples: 13200 - name: test num_bytes: 466015 num_examples: 3300 download_size: 1198214 dataset_size: 2262470 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- --- annotations_creators: - machine-generated language: - vi language_creators: - found license: cc-by-4.0 multilinguality: - monolingual pretty_name: MU Vietnamese Sentiment Dataset size_categories: - 10K<n<100K source_datasets: - original tags: - sentiment-analysis - vietnamese - football - manchester-united - youtube-comments task_categories: - text-classification task_ids: - sentiment-classification --- # MU Vietnamese Sentiment Dataset ## Dataset Description Bộ dữ liệu bình luận tiếng Việt về **Manchester United** được thu thập từ YouTube, phục vụ bài toán phân tích cảm xúc (Sentiment Analysis) trong domain bóng đá. ### Dataset Summary Đây là bộ dữ liệu đầu tiên tập trung vào bình luận của người hâm mộ Manchester United bằng tiếng Việt, bao gồm các bình luận từ các kênh bóng đá uy tín tại Việt Nam trong giai đoạn 2021–2026. ### Supported Tasks - **Text Classification / Sentiment Analysis**: Phân loại cảm xúc bình luận thành 3 nhãn: `positive`, `negative`, `neutral` ### Languages - Tiếng Việt (`vi`) --- ## Dataset Structure ### Data Fields | Field | Type | Description | |---|---|---| | `text` | string | Nội dung bình luận gốc | | `sentiment` | string | Nhãn cảm xúc: `positive`, `negative`, `neutral` | | `sample_group` | string | Nhóm lấy mẫu: `keyword` hoặc `random` | | `created_at` | string | Thời gian đăng bình luận (ISO format) | | `video_title` | string | Tiêu đề video YouTube | | `channel` | string | Kênh YouTube nguồn | | `likes` | int | Số lượt thích bình luận | ### Data Splits | Split | Size | |---|---| | Train | 13,200 (80%) | | Test | 3,300 (20%) | | **Total** | **16,500** | ### Label Distribution | Label | Count | Percentage | |---|---|---| | negative | 6,628 | 40.2% | | positive | 4,954 | 30.0% | | neutral | 4,918 | 29.8% | --- ## Dataset Creation ### Source Data Dữ liệu được thu thập từ **YouTube Data API v3** trong giai đoạn 2021–2026, bao gồm: - Bình luận từ các kênh bóng đá tiếng Việt (BĐTV, 90phut, ON Football...) - Bình luận từ video highlight, phân tích trận đấu, tin tức chuyển nhượng liên quan đến Manchester United ### Annotation Process Nhãn cảm xúc được gán tự động bằng **Claude API (claude-haiku-4-5)** theo phương pháp *silver labeling*: - **Positive**: Bình luận thể hiện sự ủng hộ, khen ngợi, vui mừng về MU hoặc cầu thủ - **Negative**: Bình luận thể hiện sự thất vọng, chỉ trích, chê bai MU hoặc cầu thủ - **Neutral**: Bình luận mang tính thông tin, hỏi đáp, không rõ cảm xúc Prompt được thiết kế bao gồm ngữ cảnh domain bóng đá và danh sách slang đặc trưng của cộng đồng fan MU Việt Nam (ví dụ: "ra hang" = MU thua, "bệu" = biệt danh MU, "man đần" = cách gọi chế). ### Sampling Strategy Dữ liệu được lấy mẫu theo chiến lược kết hợp: - **Keyword-based (60-80%)**: Lọc các bình luận chứa từ khoá đặc trưng (MU, quỷ đỏ, ra hang, Amorim, Carrick...) - **Random (20-40%)**: Lấy ngẫu nhiên để đảm bảo tính đại diện --- ## Usage ```python from datasets import load_dataset ds = load_dataset("LHUThacSi/comment_mu") # Xem data print(ds["train"][0]) # { # "text": "MU mùa này đá hay quá, thích lắm!", # "sentiment": "positive", # ... # } # Dùng với PhoBERT fine-tuned from transformers import pipeline clf = pipeline("text-classification", model="LHUThacSi/phobert-mu-sentiment") clf("MU mùa này ra hang quá, chán thật") # [{"label": "negative", "score": 0.92}] ``` --- ## Related Models - **[LHUThacSi/phobert-mu-sentiment](https://huggingface.co/LHUThacSi/phobert-mu-sentiment)**: PhoBERT-large fine-tuned trên dataset này, đạt **Macro F1 = 0.734** --- ## Limitations - Dữ liệu phân bổ không đều theo thời gian (tập trung 2025–2026) - Nhãn được gán tự động bằng LLM, không phải nhãn thủ công hoàn toàn - Slang và teencode tiếng Việt có thể ảnh hưởng đến chất lượng nhãn - Chỉ bao gồm bình luận tiếng Việt, không có bình luận tiếng Anh --- ## Citation ```bibtex @misc{pham2026mu, author = {Pham, Minh Luan}, title = {{MU Vietnamese Sentiment Dataset}: A Vietnamese Sentiment Analysis Dataset for Manchester United Football Comments}, year = {2026}, howpublished = {\url{https://huggingface.co/datasets/LHUThacSi/comment_mu}}, note = {Accessed: March 2026. Lac Hong University, Vietnam} } ``` --- ## Contact - **Author**: Phạm Minh Luân - **Institution**: Trường Đại học Lạc Hồng - **HuggingFace**: [LHUThacSi](https://huggingface.co/LHUThacSi)
提供机构:
LHUThacSi
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作