pietrolesci/yahoo_answers_topics

Name: pietrolesci/yahoo_answers_topics
Creator: pietrolesci
Published: 2023-09-25 16:10:12
License: 暂无描述

Hugging Face2023-09-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pietrolesci/yahoo_answers_topics

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - config_name: embedding_all-mpnet-base-v2 data_files: - split: train path: embedding_all-mpnet-base-v2/train-* - split: test path: embedding_all-mpnet-base-v2/test-* dataset_info: - config_name: default features: - name: id dtype: int32 - name: topic dtype: class_label: names: '0': Society & Culture '1': Science & Mathematics '2': Health '3': Education & Reference '4': Computers & Internet '5': Sports '6': Business & Finance '7': Entertainment & Music '8': Family & Relationships '9': Politics & Government - name: question_title dtype: string - name: question_content dtype: string - name: best_answer dtype: string - name: text dtype: string - name: uid dtype: int64 splits: - name: train num_bytes: 1506571390 num_examples: 1400000 - name: test num_bytes: 64707724 num_examples: 60000 download_size: 1050038594 dataset_size: 1571279114 - config_name: embedding_all-mpnet-base-v2 features: - name: uid dtype: int64 - name: embedding_all-mpnet-base-v2 sequence: float32 splits: - name: train num_bytes: 4317600000 num_examples: 1400000 - name: test num_bytes: 185040000 num_examples: 60000 download_size: 5407717474 dataset_size: 4502640000 --- # Dataset Card for "yahooanswerstopics" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项： - 配置名称：default 数据文件： - 数据集划分：train（训练集），文件路径：data/train-* - 数据集划分：test（测试集），文件路径：data/test-* - 配置名称：embedding_all-mpnet-base-v2 数据文件： - 数据集划分：train（训练集），文件路径：embedding_all-mpnet-base-v2/train-* - 数据集划分：test（测试集），文件路径：embedding_all-mpnet-base-v2/test-* 数据集信息： - 配置名称：default 特征字段： - 字段名：id，数据类型：int32 - 字段名：topic（主题），数据类型：类别标签：类别映射： '0': 社会与文化 '1': 科学与数学 '2': 健康 '3': 教育与参考 '4': 计算机与互联网 '5': 体育 '6': 商业与金融 '7': 娱乐与音乐 '8': 家庭与人际关系 '9': 政治与政府 - 字段名：question_title（问题标题），数据类型：string（字符串） - 字段名：question_content（问题内容），数据类型：string（字符串） - 字段名：best_answer（最佳答案），数据类型：string（字符串） - 字段名：text（文本），数据类型：string（字符串） - 字段名：uid，数据类型：int64 数据集划分： - 划分名称：train（训练集），字节大小：1506571390，样本数量：1400000 - 划分名称：test（测试集），字节大小：64707724，样本数量：60000 下载总大小：1050038594 数据集总占用大小：1571279114 - 配置名称：embedding_all-mpnet-base-v2 特征字段： - 字段名：uid，数据类型：int64 - 字段名：embedding_all-mpnet-base-v2，数据类型：float32序列数据集划分： - 划分名称：train（训练集），字节大小：4317600000，样本数量：1400000 - 划分名称：test（测试集），字节大小：185040000，样本数量：60000 下载总大小：5407717474 数据集总占用大小：4502640000 --- # "yahooanswerstopics"数据集卡片 [更多信息请参阅：https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards]

提供机构：

pietrolesci

原始信息汇总

数据集概述

配置信息

默认配置 (default)
- 数据文件路径
  - 训练集: data/train-*
  - 测试集: data/test-*
- 特征信息
  - id: 数据类型为 int32
  - topic: 数据类型为 class_label，包含以下类别:
    - 0: Society & Culture
    - 1: Science & Mathematics
    - 2: Health
    - 3: Education & Reference
    - 4: Computers & Internet
    - 5: Sports
    - 6: Business & Finance
    - 7: Entertainment & Music
    - 8: Family & Relationships
    - 9: Politics & Government
  - question_title: 数据类型为 string
  - question_content: 数据类型为 string
  - best_answer: 数据类型为 string
  - text: 数据类型为 string
  - uid: 数据类型为 int64
- 数据集划分
  - 训练集: 1400000 个样本，1506571390 字节
  - 测试集: 60000 个样本，64707724 字节
- 数据集大小
  - 下载大小: 1050038594 字节
  - 数据集大小: 1571279114 字节
嵌入配置 (embedding_all-mpnet-base-v2)
- 数据文件路径
  - 训练集: embedding_all-mpnet-base-v2/train-*
  - 测试集: embedding_all-mpnet-base-v2/test-*
- 特征信息
  - uid: 数据类型为 int64
  - embedding_all-mpnet-base-v2: 数据类型为 sequence，包含 float32
- 数据集划分
  - 训练集: 1400000 个样本，4317600000 字节
  - 测试集: 60000 个样本，185040000 字节
- 数据集大小
  - 下载大小: 5407717474 字节
  - 数据集大小: 4502640000 字节

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模文本分类数据集的构建对于模型训练至关重要。Yahoo Answers Topics数据集源自雅虎问答平台的历史数据，通过系统化采集与筛选，涵盖了用户提问的标题、内容及最佳答案。该数据集构建过程注重原始信息的完整性，保留了问答交互的真实语境，同时依据主题类别进行结构化标注，形成了涵盖十个主要领域的分类体系。数据经过清洗与去重处理，确保了样本的多样性与代表性，为文本分类任务提供了坚实的语料基础。

使用方法

使用该数据集时，研究者可通过Hugging Face平台直接加载默认配置，获取原始文本数据用于模型训练与评估。数据集提供了标准化的训练集与测试集划分，便于进行监督学习实验。对于高级应用，还可选择预计算的文本嵌入版本，该版本基于all-mpnet-base-v2模型生成，可直接用于下游任务的特征输入。在具体应用中，用户可依据主题标签进行多分类模型训练，或利用问答对结构探索生成式任务，实现灵活的研究设计。

背景与挑战

背景概述

在自然语言处理领域，文本分类任务一直是核心研究方向之一，旨在通过算法模型自动识别和归类文本内容。Yahoo Answers Topics数据集应运而生，它源自雅虎问答平台的历史数据，由研究社区整理并公开，聚焦于多主题文本分类问题。该数据集涵盖了从社会文化、科学技术到商业金融等十个广泛的主题类别，每个样本包含问题标题、内容及最佳答案，为模型训练提供了丰富的语义信息。自发布以来，它已成为评估文本分类和表示学习模型性能的重要基准，推动了问答系统和主题建模技术的发展，对学术界和工业界均产生了深远影响。

当前挑战

Yahoo Answers Topics数据集所针对的领域挑战在于多主题文本分类的复杂性，由于主题类别间存在语义重叠，例如“教育参考”与“科学技术”可能交叉，模型需具备精细的语义区分能力以准确归类。在构建过程中，挑战主要源于数据清洗与标注的困难：原始问答数据包含大量噪声，如拼写错误、非正式表达和不相关内容，需通过预处理确保质量；同时，主题标签的分配需保持一致性，避免主观偏差，这要求严谨的标注流程和验证机制。这些挑战共同考验着数据集的可靠性和实用性。

常用场景

经典使用场景

在自然语言处理领域，文本分类任务常需大规模标注数据以训练模型。Yahoo Answers Topics数据集凭借其涵盖社会文化、科学数学、健康等十个主题类别的丰富标注，成为文本多分类研究的经典基准。研究者广泛利用该数据集评估分类算法在真实用户生成内容上的性能，其问题标题、内容与最佳答案的文本结构为模型提供了多层次语义信息，促进了主题识别技术的演进。

解决学术问题

该数据集有效解决了开放域文本分类中数据稀缺与类别不平衡的学术挑战。通过提供海量且类别均衡的问答对，它支持了深度学习模型在跨领域主题归纳方面的研究，推动了注意力机制、迁移学习等方法在分类任务中的应用。其存在降低了领域自适应研究的门槛，为理解用户生成内容的语义结构提供了实证基础，对自然语言理解领域的理论发展具有显著意义。

实际应用

在实际应用中，Yahoo Answers Topics数据集常被用于构建智能客服系统与内容推荐引擎。企业可基于其训练的分类模型自动识别用户查询的主题，实现高效的问题路由与知识库检索。教育平台则利用该数据增强自动答疑系统的主题覆盖能力，提升服务精准度。这些应用显著优化了在线信息服务的响应速度与用户体验。

数据集最近研究