Yahoo_Answers_10_categories_for_NLP

Hugging Face2024-07-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/yassiracharki/Yahoo_Answers_10_categories_for_NLP

下载链接

链接失效反馈

官方服务：

资源简介：

雅虎答案主题分类数据集是使用10个最大的主类别构建的。每个类别包含140,000个训练样本和6,000个测试样本，总计1,400,000个训练样本和60,000个测试样本。数据集文件包括classes.txt、train.csv和test.csv，每个样本有四个列：类别索引、问题标题、问题内容和最佳答案。

创建时间：

2024-07-27

原始信息汇总

数据集卡片

数据集概述

数据集名称: Yahoo Answers 10 categories for NLP
任务类别: 文本分类
标签: categories, text data, nlp, yelp, fine-grained, 10 classes, yahoo, answers
语言: 英语
数据规模: 1M<n<10M
许可证: Apache 2.0

数据集描述

数据集构建: 使用Yahoo! Answers的10个最大主类别构建。每个类别包含140,000个训练样本和6,000个测试样本。总共有1,400,000个训练样本和60,000个测试样本。
数据内容: 仅使用最佳答案内容和主类别信息。
文件描述:
- classes.txt: 包含每个标签对应的类别列表。
- train.csv 和 test.csv: 包含所有训练和测试样本，格式为逗号分隔值。每行有4列，分别是类别索引（1到10）、问题标题、问题内容和最佳答案。文本字段使用双引号转义，内部双引号使用两个双引号转义，换行符使用反斜杠加"n"字符转义。

数据集来源

Kaggle链接: https://www.kaggle.com/datasets/yacharki/yahoo-answers-10-categories-for-nlp-csv
DOI: 10.34740/KAGGLE/DSV/5339321
作者: Xiang Zhang 和 Acharki Yassir
年份: 2023

数据集结构

文件列表:
- Readme.md
- test.csv
- train.csv
- classes.txt

数据集用途

直接用途: 细粒度文本分类

搜集汇总

数据集介绍

构建方式

Yahoo_Answers_10_categories_for_NLP数据集基于Yahoo! Answers平台上的10个主要类别构建而成。每个类别包含140,000个训练样本和6,000个测试样本，总计1,400,000个训练样本和60,000个测试样本。数据集中仅使用了最佳答案内容及其对应的主类别信息，确保了数据的相关性和质量。

特点

该数据集的特点在于其细粒度的文本分类任务，涵盖了10个不同的类别。每个样本包含类别索引、问题标题、问题内容以及最佳答案四个字段，文本字段通过双引号进行转义处理，确保了数据的完整性和一致性。数据集的规模适中，适合用于自然语言处理中的分类任务。

使用方法

该数据集主要用于自然语言处理领域的细粒度文本分类任务。用户可以通过加载train.csv和test.csv文件来访问训练和测试数据，类别信息则存储在classes.txt文件中。数据集的格式为CSV，便于使用常见的机器学习框架进行数据处理和模型训练。

背景与挑战

背景概述

Yahoo! Answers 10 Categories for NLP数据集是一个专为自然语言处理（NLP）任务设计的文本分类数据集，由Yahoo! Answers平台上的问答数据构建而成。该数据集由Xiang Zhang和Acharki Yassir于2023年发布，旨在为细粒度文本分类任务提供支持。数据集包含10个主要类别，每个类别包含140,000个训练样本和6,000个测试样本，总计1,400,000个训练样本和60,000个测试样本。数据集中仅使用了最佳答案内容和主类别信息，为NLP领域的研究者提供了一个大规模、多样化的文本分类基准。该数据集在Kaggle平台上公开，并采用Apache 2.0许可证，推动了文本分类和问答系统领域的研究进展。

当前挑战

Yahoo! Answers 10 Categories for NLP数据集在构建和应用过程中面临多重挑战。首先，细粒度文本分类任务本身具有较高的复杂性，尤其是当类别之间的语义边界较为模糊时，模型难以准确区分。其次，数据集的构建依赖于Yahoo! Answers平台上的用户生成内容，这些内容可能存在噪声、不一致性以及语言表达的多样性，增加了数据清洗和预处理的难度。此外，尽管数据集规模较大，但其类别分布可能存在不平衡问题，某些类别的样本数量较少，可能导致模型训练时的偏差。最后，如何有效利用问题标题、问题内容和最佳答案之间的关联性，进一步提升分类性能，也是该数据集应用中的一个重要挑战。

常用场景

经典使用场景

Yahoo_Answers_10_categories_for_NLP数据集在自然语言处理领域中被广泛用于细粒度文本分类任务。该数据集包含了来自Yahoo! Answers的10个主要类别的问答数据，每个类别包含140,000个训练样本和6,000个测试样本。研究人员通常利用该数据集来训练和评估文本分类模型，特别是在处理多类别分类问题时，该数据集提供了丰富的文本内容和类别标签，有助于模型学习不同类别之间的细微差别。

衍生相关工作

基于Yahoo_Answers_10_categories_for_NLP数据集，许多经典的自然语言处理研究工作得以展开。例如，研究人员利用该数据集开发了多种先进的文本分类模型，如基于深度学习的卷积神经网络（CNN）和循环神经网络（RNN）模型。此外，该数据集还被用于研究迁移学习和预训练语言模型（如BERT）在细粒度文本分类任务中的表现。这些研究不仅推动了文本分类技术的发展，还为其他相关领域的研究提供了重要的参考。

数据集最近研究