five

AiresPucrs/stopwords-pt

收藏
Hugging Face2024-10-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/AiresPucrs/stopwords-pt
下载链接
链接失效反馈
官方服务:
资源简介:
stopwords-en数据集包含葡萄牙语中常用的停用词列表。这些词在文本分类任务中通常不具有重要意义,因此在预处理和训练较浅模型时通常会被移除。数据集包含一个列,其中包含罗马字母的所有字母、1到10的数字以及葡萄牙语中常用的词,如“de”、“que”、“em”、“para”等。

stopwords-en数据集包含葡萄牙语中常用的停用词列表。这些词在文本分类任务中通常不具有重要意义,因此在预处理和训练较浅模型时通常会被移除。数据集包含一个列,其中包含罗马字母的所有字母、1到10的数字以及葡萄牙语中常用的词,如“de”、“que”、“em”、“para”等。
提供机构:
AiresPucrs
原始信息汇总

数据集概述

基本信息

  • 数据集名称: stopwords-pt
  • 数据集大小: 257个示例
  • 数据集类型: 文本分类
  • 语言: 葡萄牙语
  • 大小类别: 小于1K

数据集特征

  • 特征名称: stopwords
  • 数据类型: 字符串

数据集分割

  • 训练集: 257个示例,占用2200字节

下载信息

  • 下载大小: 2367字节
  • 数据集大小: 2200字节

使用示例

python from sklearn.feature_extraction.text import TfidfVectorizer

加载葡萄牙语停用词列表

stopwords = load_dataset(AiresPucrs/stopwords-pt, split=train)[stopwords]

创建TfidfVectorizer对象

vectorizer = TfidfVectorizer(min_df=10, max_features=100000, analyzer=word, ngram_range=(1, 2), stop_words=stopwords, lowercase=True)

拟合TfidfVectorizer到数据集

vectorizer.fit(dataset[text])

许可证

  • 许可证: Apache License, version 2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作