five

darredondort/decidim-barcelona-proposals-embeddings-768d

收藏
Hugging Face2025-12-16 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/darredondort/decidim-barcelona-proposals-embeddings-768d
下载链接
链接失效反馈
官方服务:
资源简介:
Decidim Barcelona提案主题2016-2024数据集包含31,775条来自decidim.barcelona(2016-2024年)的公民提案描述。通过BERTopic模型(包括UMAP降维、HDBSCAN聚类和c-TF-IDF主题表示)提取了20个反复出现的主题。句子嵌入使用了HuggingFace的sentence-transformers库和ProjecteAINA的加泰罗尼亚语微调模型。数据集主要用于句子相似性任务,语言为加泰罗尼亚语和西班牙语。

The Decidim Barcelona Proposal Topics 2016-2024 dataset contains 31,775 citizen proposal descriptions from decidim.barcelona (2016-2024). It extracts 20 clearly recurrent topics using the BERTopic pipeline (UMAP dimensionality reduction, HDBSCAN clustering, and c-TF-IDF topic representation). Sentence embeddings are generated using the HuggingFace sentence-transformers library and the public Catalan fine-tuned language model from ProjecteAINA. The dataset is primarily used for sentence-similarity tasks and is in Catalan and Spanish languages.
提供机构:
darredondort
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作