AiresPucrs/stopwords-pt
收藏Hugging Face2024-10-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/AiresPucrs/stopwords-pt
下载链接
链接失效反馈官方服务:
资源简介:
stopwords-en数据集包含葡萄牙语中常用的停用词列表。这些词在文本分类任务中通常不具有重要意义,因此在预处理和训练较浅模型时通常会被移除。数据集包含一个列,其中包含罗马字母的所有字母、1到10的数字以及葡萄牙语中常用的词,如“de”、“que”、“em”、“para”等。
stopwords-en数据集包含葡萄牙语中常用的停用词列表。这些词在文本分类任务中通常不具有重要意义,因此在预处理和训练较浅模型时通常会被移除。数据集包含一个列,其中包含罗马字母的所有字母、1到10的数字以及葡萄牙语中常用的词,如“de”、“que”、“em”、“para”等。
提供机构:
AiresPucrs
原始信息汇总
数据集概述
基本信息
- 数据集名称: stopwords-pt
- 数据集大小: 257个示例
- 数据集类型: 文本分类
- 语言: 葡萄牙语
- 大小类别: 小于1K
数据集特征
- 特征名称: stopwords
- 数据类型: 字符串
数据集分割
- 训练集: 257个示例,占用2200字节
下载信息
- 下载大小: 2367字节
- 数据集大小: 2200字节
使用示例
python from sklearn.feature_extraction.text import TfidfVectorizer
加载葡萄牙语停用词列表
stopwords = load_dataset(AiresPucrs/stopwords-pt, split=train)[stopwords]
创建TfidfVectorizer对象
vectorizer = TfidfVectorizer(min_df=10, max_features=100000, analyzer=word, ngram_range=(1, 2), stop_words=stopwords, lowercase=True)
拟合TfidfVectorizer到数据集
vectorizer.fit(dataset[text])
许可证
- 许可证: Apache License, version 2.0



