five

tallesl/blogsetbr

收藏
Hugging Face2024-12-18 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/tallesl/blogsetbr
下载链接
链接失效反馈
官方服务:
资源简介:
BlogSet-BR数据集是一个用于文本生成的葡萄牙语数据集,包含超过740万条博客文章记录。数据集提供了原始版本和修改版本,修改版本中移除了重复记录和转义问题,并添加了文件头。此外,还提供了一个包含3万条随机选择记录的小样本文件。数据集可以加载到Postgres数据库中进行进一步处理,并且包含了使用SentenceTransformers库生成的文本嵌入。

The BlogSet-BR dataset is a reproduction of the blog dataset created by PUCRS University. The dataset includes both the original and modified versions, stored in blogsetbr-original.csv and blogsetbr-modificado.csv respectively. The modified version removes duplicate and problematic records and adds a file header. The dataset also includes a smaller example file and instructions on how to load the data into a Postgres database. Additionally, the dataset includes embedding vectors for text similarity search.
提供机构:
tallesl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作