뉴스 헤드라인 분류 데이터셋

github2024-11-10 更新2024-11-14 收录

下载链接：

https://github.com/boostcampaitech7/level2-nlp-datacentric-nlp-07

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2,800个训练样本和30,000个测试样本，用于将新闻标题分类为7个类别：生活文化、体育、世界、政治、经济、IT科学和社会。每个样本包含一个唯一的ID、新闻标题文本和编码后的标签。评估指标为Macro F1 Score。

This dataset includes 2,800 training samples and 30,000 test samples, designed for classifying news headlines into 7 categories: lifestyle & culture, sports, world, politics, economy, IT & science, and society. Each sample contains a unique ID, the news headline text, and an encoded label. The evaluation metric is Macro F1 Score.

创建时间：

2024-10-29

原始信息汇总

Data-Centric 주제 분류 데이터셋 개요

데이터셋 설명

대회 개요

대회 목표: 뉴스 헤드라인을 7개의 카테고리로 분류하는 문제
데이터 구성:
- 학습 데이터: 2,800개
- 테스트 데이터: 30,000개
카테고리: 생활문화, 스포츠, 세계, 정치, 경제, IT과학, 사회
데이터 필드:
- ID: 각 데이터 샘플의 고유번호
- text: 뉴스 헤드라인 (한국어 텍스트, 일부 영어 및 한자 포함)
- target: 정수로 인코딩된 라벨
평가 지표: Macro F1 Score

데이터 처리 및 증강

데이터 분석

데이터 인스펙션(Data Inspection) 결과

데이터 처리

데이터 이상치 탐지:
1. ASCII 여부 기반
2. 특수 문자 필터링 기반
3. 영문 필터링 기반
데이터 정상화:
1. ASCII로 오염된 텍스트 데이터 노이즈 정상화
2. 라벨 오류 정상화

데이터 증강

증강 방법:
1. BERT 기반 마스킹
2. LLM 활용 동의어 대체
3. LLM 기반 기사 생성
4. Easy Data Augmentation(EDA)기반 SR, RI, RS, RD

최종 순위

	Public	Private
정확도	0.8400	0.8413
F1 점수	0.8348	0.8366
최종 등수	12	11

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Boostcamp AI Tech的NLP课程，旨在通过数据中心化的方法提升文本分类模型的性能。数据集包含2,800个训练样本和30,000个测试样本，涵盖七个类别：生活文化、体育、世界、政治、经济、IT科学和社会。构建过程中，团队首先进行了数据分析，识别并处理了数据中的异常值和标签错误，随后通过BERT、LLM等技术进行数据增强，最终形成了具有高分类准确性的数据集。

特点

该数据集的主要特点在于其多样性和高质量。数据集包含多种语言元素，如韩语、英语和汉字，能够有效测试模型对多语言文本的处理能力。此外，数据集通过多种数据增强技术，如BERT掩码、LLM生成的同义词替换等，显著提升了数据的丰富性和模型的泛化能力。评估指标采用Macro F1 Score，确保了分类结果的全面性和准确性。

使用方法

使用该数据集时，用户首先需要加载数据，并根据需要进行预处理，如文本清洗和标签编码。随后，可以使用Python及其相关库（如Hugging Face Transformers、Scikit-learn和PyTorch）进行模型训练和评估。建议用户参考提供的文档和代码示例，以确保正确配置实验环境和优化模型性能。最终，通过Macro F1 Score评估模型效果，以达到最佳分类效果。

背景与挑战

背景概述

뉴스 헤드라인 분류 데이터셋은 부스트캠프 AI Tech의 NLP 트랙에서 진행된 Level 2 프로젝트의 일환으로 개발되었다. 이 데이터셋은 주어진 뉴스 헤드라인을 7개의 카테고리로 분류하는 작업을 위해 특별히 구성되었다. 이 데이터셋은 자연어 문장의 주제 분류 정확성을 평가하여 모델의 언어 이해 능력을 검증하는 데 중요한 역할을 한다. 학습 데이터는 2,800개, 테스트 데이터는 30,000개로 구성되어 있으며, 평가 지표로는 Macro F1 Score가 사용된다.

当前挑战

뉴스 헤드라인 분류 데이터셋의 주요 도전 과제는 다양한 언어 특성을 가진 뉴스 헤드라인을 정확하게 분류하는 것이다. 이 데이터셋은 한국어, 영어, 한자 등 다양한 언어 요소를 포함하고 있어, 모델이 이러한 복합적인 언어 특성을 이해하고 처리하는 데 어려움을 겪을 수 있다. 또한, 데이터 증강 및 정상화 과정에서도 이상치 탐지와 라벨 오류 수정 등의 기술적 도전 과제가 존재한다.

常用场景

经典使用场景

뉴스 헤드라인 분류 데이터셋의 经典使用场景主要集中在自然语言处理（NLP）领域，特别是文本分类任务。该数据集通过提供2,800个训练样本和30,000个测试样本，帮助研究者和开发者训练和评估模型在将新闻标题准确分类到七个预定义类别（如生活文化、体育、世界、政治、经济、IT科学和社会）中的能力。这种分类任务不仅提升了模型的语言理解能力，还为新闻内容的自动化分类提供了基础。

衍生相关工作

뉴스 헤드라인 분류 데이터셋的发布和使用催生了一系列相关的经典工作。例如，基于该数据集的研究论文探讨了不同文本分类模型的性能，如BERT、T5等。此外，该数据集还被用于开发和验证数据增强技术，如BERT基於的遮罩、LLM基於的同义词替换等，进一步提升了文本分类任务的效果。这些工作不仅丰富了NLP领域的研究内容，还为实际应用提供了技术支持。

数据集最近研究