Final Dataset

github2024-11-11 更新2024-11-14 收录

下载链接：

https://github.com/boostcampaitech7/level2-nlp-datacentric-nlp-15

下载链接

链接失效反馈

官方服务：

资源简介：

通过LLM（大型语言模型）基于噪声去除、数据增强、反向翻译和聚类校正构建的高质量最终数据集。

A high-quality final dataset constructed using Large Language Models (LLMs) through noise reduction, data augmentation, back-translation and cluster correction.

创建时间：

2024-10-28

原始信息汇总

数据集概述

数据集介绍

数据集主题：数据中心自然语言处理比赛 - 通过数据质量改进提升性能
数据集描述：在不改变模型结构的情况下，仅通过数据质量改进来提升分类性能
数据构成：
- 原始数据：2,800条（噪声数据1,600条，错误标注数据1,000条，正常数据200条）
评估指标：Macro F1 Score

数据集处理

原始数据：包含2,800条数据，其中1,600条为噪声数据
最终数据集：通过LLM（大型语言模型）噪声去除、数据增强、反向翻译和聚类校正等步骤构建的高质量最终数据集，共15,780条数据

项目结构

数据目录：
- test_dataset
- train_dataset
模型目录：models
输出目录：output
源代码目录：src
- arguments.py：数据增强文件
- main.py：模型训练、评估和预测文件
- model.py：BERT模型训练的PyTorch Dataset实现文件
- back_translation.ipynb：反向翻译任务文件
- clustering.ipynb：聚类任务文件
- char_filter.py：噪声数据前后处理文件
- LLM_aug.ipynb：LLM数据生成和增强文件
- LLM_cleaning_noise.ipynb：LLM噪声判定和去噪文件
- LLM_label_filtering.ipynb：LLM文本主题提取和重新标注文件
- noun_analysis.py：词频分析和数据清洗文件
- post_processing.ipynb：cleanlab数据清洗文件

安装指南

环境要求：Python 3.10
安装步骤：
- 使用pip安装requirements.txt中的依赖（pip install -r requirements.txt）
- 运行python run.py启动程序

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，Final Dataset通过一系列精心设计的步骤构建而成。首先，原始数据集包含2,800条记录，其中1,600条为噪声数据，1,000条为错误标签数据，仅有200条为正常数据。通过使用大型语言模型（LLM）进行噪声数据过滤、数据增强、逆翻译以及聚类校正等技术，最终数据集扩展至15,780条高质量记录。这一过程不仅提升了数据的整体质量，还显著增加了数据量，为后续的模型训练提供了坚实的基础。

使用方法

使用Final Dataset时，用户首先需确保Python 3.10环境，并通过pip安装requirements.txt中的依赖包。随后，运行run.py脚本即可启动数据处理和模型训练流程。数据集的结构清晰，包含原始数据、训练数据和测试数据等，用户可根据需要灵活调用。此外，src文件夹中提供了详细的代码实现，包括数据增强、噪声过滤、聚类分析等多个模块，用户可根据具体需求进行定制化调整。

背景与挑战

背景概述

Final Dataset是由韩国的一组研究人员在2024年创建的，旨在通过数据质量的提升来增强自然语言处理中的主题分类性能。该数据集的核心研究问题是如何在不改变模型结构的情况下，仅通过数据质量的改进来提高分类模型的性能。主要研究人员包括김진재、박규태、윤선웅、이정민和임한택，他们通过一系列的数据增强和噪声去除技术，成功地将原始数据集从2,800条扩展到15,780条，显著提升了数据集的质量和分类模型的Macro F1 Score。该数据集的创建对自然语言处理领域，特别是数据驱动的模型优化方面，具有重要的影响力。

当前挑战

Final Dataset在构建过程中面临的主要挑战包括：1) 数据集中的噪声和错误标签问题，原始数据集中包含1,600条噪声数据和1,000条错误标签数据，这严重影响了模型的分类性能；2) 数据增强和噪声去除的技术选择与实施，研究人员需要选择合适的方法来有效提升数据质量，同时避免引入新的噪声。此外，数据集的扩展和质量提升过程中，如何保持数据的多样性和代表性也是一个重要的挑战。这些挑战的解决不仅提升了数据集的质量，也为未来的研究提供了宝贵的经验和方法。

常用场景

经典使用场景

在自然语言处理领域，Final Dataset 主要用于新闻文章的主题分类任务。通过该数据集，研究者和开发者可以训练和评估模型在处理含有噪声和错误标签的数据时的表现，从而提升分类模型的鲁棒性和准确性。

解决学术问题

Final Dataset 解决了在自然语言处理中常见的数据质量问题，特别是噪声数据和错误标签对模型性能的影响。通过提供经过精心处理和增强的数据集，它有助于研究者探索在不改变模型结构的情况下，仅通过数据质量提升来提高分类性能的方法，具有重要的学术研究价值。

实际应用

在实际应用中，Final Dataset 可用于新闻媒体和内容分发平台，帮助自动分类和推荐新闻文章，提升用户体验。此外，它还可应用于舆情分析和信息过滤系统，通过提高数据质量来增强系统的准确性和可靠性。

数据集最近研究