five

ccdv/patent-classification

收藏
Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ccdv/patent-classification
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: en task_categories: - text-classification tags: - long context task_ids: - multi-class-classification - topic-classification size_categories: 10K<n<100K --- **Patent Classification: a classification of Patents and abstracts (9 classes).** This dataset is intended for long context classification (non abstract documents are longer that 512 tokens). \ Data are sampled from "BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization." by Eva Sharma, Chen Li and Lu Wang * See: https://aclanthology.org/P19-1212.pdf * See: https://evasharma.github.io/bigpatent/ It contains 9 unbalanced classes, 35k Patents and abstracts divided into 3 splits: train (25k), val (5k) and test (5k). **Note that documents are uncased and space separated (by authors)** Compatible with [run_glue.py](https://github.com/huggingface/transformers/tree/master/examples/pytorch/text-classification) script: ``` export MODEL_NAME=roberta-base export MAX_SEQ_LENGTH=512 python run_glue.py \ --model_name_or_path $MODEL_NAME \ --dataset_name ccdv/patent-classification \ --do_train \ --do_eval \ --max_seq_length $MAX_SEQ_LENGTH \ --per_device_train_batch_size 8 \ --gradient_accumulation_steps 4 \ --learning_rate 2e-5 \ --num_train_epochs 1 \ --max_eval_samples 500 \ --output_dir tmp/patent ```

language: 英语 task_categories: - 文本分类 tags: - 长上下文(long context) task_ids: - 多类别分类(multi-class-classification) - 主题分类(topic-classification) size_categories: 10K<n<100K **专利分类:专利与摘要的九类别分类任务** 本数据集旨在支持长上下文分类任务(非摘要类文档长度超过512个词元(Token))。数据采样自Eva Sharma、Chen Li与Lu Wang发表的论文《BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization》,相关参考链接如下: * 参见:https://aclanthology.org/P19-1212.pdf * 参见:https://evasharma.github.io/bigpatent/ 该数据集包含9个非均衡类别,总计35000条专利及摘要数据,被划分为训练集(25000条)、验证集(5000条)与测试集(5000条)三个子集。 **请注意,文档均采用小写格式且以空格分隔(由原数据集作者设定)** 本数据集兼容[run_glue.py](https://github.com/huggingface/transformers/tree/master/examples/pytorch/text-classification)脚本,示例运行代码如下: export MODEL_NAME=roberta-base export MAX_SEQ_LENGTH=512 python run_glue.py --model_name_or_path $MODEL_NAME --dataset_name ccdv/patent-classification --do_train --do_eval --max_seq_length $MAX_SEQ_LENGTH --per_device_train_batch_size 8 --gradient_accumulation_steps 4 --learning_rate 2e-5 --num_train_epochs 1 --max_eval_samples 500 --output_dir tmp/patent
提供机构:
ccdv
原始信息汇总

数据集概述

数据集名称

  • Patent Classification

数据集用途

  • 用于长文本分类任务,特别是专利和摘要的分类。

数据集特点

  • 包含9个不平衡的分类标签。
  • 数据集大小介于10,000到100,000之间。
  • 文档长度超过512个令牌。

数据集组成

  • 包含35,000个专利和摘要。
  • 分为三个部分:训练集(25,000个样本)、验证集(5,000个样本)和测试集(5,000个样本)。

数据集来源

  • 数据来源于"BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization.",由Eva Sharma, Chen Li和Lu Wang提供。

数据集格式

  • 文档为小写且空格分隔。

兼容性

  • 兼容run_glue.py脚本,使用roberta-base模型进行处理。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于专利分类的文本分类数据集,包含9个不平衡类别,共35,000条专利和摘要记录,总计70,000行数据,分为训练集、验证集和测试集。其特点是为长上下文分类任务设计,非摘要文档长度超过512个标记,数据源自'BIGPATENT'数据集,且文档经过小写化和空格分隔处理。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作