Yahoo_Answers_10_categories_for_NLP
收藏Hugging Face2024-07-27 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/yassiracharki/Yahoo_Answers_10_categories_for_NLP
下载链接
链接失效反馈官方服务:
资源简介:
雅虎答案主题分类数据集是使用10个最大的主类别构建的。每个类别包含140,000个训练样本和6,000个测试样本,总计1,400,000个训练样本和60,000个测试样本。数据集文件包括classes.txt、train.csv和test.csv,每个样本有四个列:类别索引、问题标题、问题内容和最佳答案。
创建时间:
2024-07-27
原始信息汇总
数据集卡片
数据集概述
- 数据集名称: Yahoo Answers 10 categories for NLP
- 任务类别: 文本分类
- 标签: categories, text data, nlp, yelp, fine-grained, 10 classes, yahoo, answers
- 语言: 英语
- 数据规模: 1M<n<10M
- 许可证: Apache 2.0
数据集描述
- 数据集构建: 使用Yahoo! Answers的10个最大主类别构建。每个类别包含140,000个训练样本和6,000个测试样本。总共有1,400,000个训练样本和60,000个测试样本。
- 数据内容: 仅使用最佳答案内容和主类别信息。
- 文件描述:
classes.txt: 包含每个标签对应的类别列表。train.csv和test.csv: 包含所有训练和测试样本,格式为逗号分隔值。每行有4列,分别是类别索引(1到10)、问题标题、问题内容和最佳答案。文本字段使用双引号转义,内部双引号使用两个双引号转义,换行符使用反斜杠加"n"字符转义。
数据集来源
- Kaggle链接: https://www.kaggle.com/datasets/yacharki/yahoo-answers-10-categories-for-nlp-csv
- DOI: 10.34740/KAGGLE/DSV/5339321
- 作者: Xiang Zhang 和 Acharki Yassir
- 年份: 2023
数据集结构
- 文件列表:
Readme.mdtest.csvtrain.csvclasses.txt
数据集用途
- 直接用途: 细粒度文本分类
搜集汇总
数据集介绍

构建方式
Yahoo_Answers_10_categories_for_NLP数据集基于Yahoo! Answers平台上的10个主要类别构建而成。每个类别包含140,000个训练样本和6,000个测试样本,总计1,400,000个训练样本和60,000个测试样本。数据集中仅使用了最佳答案内容及其对应的主类别信息,确保了数据的相关性和质量。
特点
该数据集的特点在于其细粒度的文本分类任务,涵盖了10个不同的类别。每个样本包含类别索引、问题标题、问题内容以及最佳答案四个字段,文本字段通过双引号进行转义处理,确保了数据的完整性和一致性。数据集的规模适中,适合用于自然语言处理中的分类任务。
使用方法
该数据集主要用于自然语言处理领域的细粒度文本分类任务。用户可以通过加载train.csv和test.csv文件来访问训练和测试数据,类别信息则存储在classes.txt文件中。数据集的格式为CSV,便于使用常见的机器学习框架进行数据处理和模型训练。
背景与挑战
背景概述
Yahoo! Answers 10 Categories for NLP数据集是一个专为自然语言处理(NLP)任务设计的文本分类数据集,由Yahoo! Answers平台上的问答数据构建而成。该数据集由Xiang Zhang和Acharki Yassir于2023年发布,旨在为细粒度文本分类任务提供支持。数据集包含10个主要类别,每个类别包含140,000个训练样本和6,000个测试样本,总计1,400,000个训练样本和60,000个测试样本。数据集中仅使用了最佳答案内容和主类别信息,为NLP领域的研究者提供了一个大规模、多样化的文本分类基准。该数据集在Kaggle平台上公开,并采用Apache 2.0许可证,推动了文本分类和问答系统领域的研究进展。
当前挑战
Yahoo! Answers 10 Categories for NLP数据集在构建和应用过程中面临多重挑战。首先,细粒度文本分类任务本身具有较高的复杂性,尤其是当类别之间的语义边界较为模糊时,模型难以准确区分。其次,数据集的构建依赖于Yahoo! Answers平台上的用户生成内容,这些内容可能存在噪声、不一致性以及语言表达的多样性,增加了数据清洗和预处理的难度。此外,尽管数据集规模较大,但其类别分布可能存在不平衡问题,某些类别的样本数量较少,可能导致模型训练时的偏差。最后,如何有效利用问题标题、问题内容和最佳答案之间的关联性,进一步提升分类性能,也是该数据集应用中的一个重要挑战。
常用场景
经典使用场景
Yahoo_Answers_10_categories_for_NLP数据集在自然语言处理领域中被广泛用于细粒度文本分类任务。该数据集包含了来自Yahoo! Answers的10个主要类别的问答数据,每个类别包含140,000个训练样本和6,000个测试样本。研究人员通常利用该数据集来训练和评估文本分类模型,特别是在处理多类别分类问题时,该数据集提供了丰富的文本内容和类别标签,有助于模型学习不同类别之间的细微差别。
衍生相关工作
基于Yahoo_Answers_10_categories_for_NLP数据集,许多经典的自然语言处理研究工作得以展开。例如,研究人员利用该数据集开发了多种先进的文本分类模型,如基于深度学习的卷积神经网络(CNN)和循环神经网络(RNN)模型。此外,该数据集还被用于研究迁移学习和预训练语言模型(如BERT)在细粒度文本分类任务中的表现。这些研究不仅推动了文本分类技术的发展,还为其他相关领域的研究提供了重要的参考。
数据集最近研究
最新研究方向
在自然语言处理领域,Yahoo_Answers_10_categories_for_NLP数据集因其细粒度的文本分类特性而备受关注。该数据集包含10个主要类别的问答数据,每个类别拥有14万条训练样本和6千条测试样本,总计140万条训练数据和6万条测试数据。近年来,研究者们利用该数据集探索了多种前沿技术,如基于深度学习的文本分类模型、迁移学习以及多任务学习等。特别是在预训练语言模型(如BERT、GPT)的应用中,该数据集被广泛用于验证模型在细粒度分类任务中的性能。此外,随着大模型时代的到来,该数据集在零样本学习和少样本学习中的潜力也逐渐显现,为自然语言处理领域的研究提供了丰富的实验数据支持。
以上内容由遇见数据集搜集并总结生成



