ElWapoteDev/parquet-subreddit-maau

Name: ElWapoteDev/parquet-subreddit-maau
Creator: ElWapoteDev
Published: 2023-08-21 00:55:40
License: 暂无描述

Hugging Face2023-08-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ElWapoteDev/parquet-subreddit-maau

下载链接

链接失效反馈

官方服务：

资源简介：

MAAU Subreddit Memes数据集是一个包含来自[r/MAAU]子论坛的评论和回复的集合。该子论坛专注于分享和讨论幽默内容，包括表情包、笑话和讽刺帖子。数据集以Parquet格式提供，便于存储和检索。

提供机构：

ElWapoteDev

原始信息汇总

MAAU Subreddit Memes Dataset

数据集描述

MAAU Subreddit Memes Dataset 是从 r/MAAU 子论坛收集的评论和回复的集合。该子论坛专注于分享和讨论幽默内容，包括表情包、笑话和讽刺帖子。数据集以 Parquet 格式提供，便于存储和检索。

数据收集

数据集通过使用 Python 脚本从 r/MAAU 子论坛获取帖子和评论来收集。Python 脚本利用 Reddit API 访问所需内容。数据收集过程涉及检索多种西班牙语评论和回复，展示了该子论坛独特的幽默和风格。

数据集结构

数据集由代表 r/MAAU 子论坛评论和回复的文本条目组成。每个条目都包含在一对标签 <s> 和 </s> 中，表示评论或回复的开始和结束。以下是数据集结构的示例：

txt <s>[INST] Todo, ya fallamos como especie, no hay nada que podamos hacer para detenerlo [/INST] Mejor nos extingamos</s> <s>[INST] Awebo que ya inicie una 3ra Guerra Mundial [/INST] Ya quiero ver los COD que saldran gracias a eso </s> <s>[INST] A m me reportaron un post por delito de odio xd era un delfn dibujando una esvstica (basado) [/INST] si bro que gracioso, apoco si tiln sigue contndonos</s>

数据集以 Parquet 格式提供，确保高效的存储和与各种数据处理框架的轻松集成。

使用

MAAU Subreddit Memes Dataset 可用于多种 NLP 任务，包括但不限于：

表情包评论的情感分析。
幽默检测和分类。
语言生成和文本生成。
非正式在线文本的风格分析。

鼓励研究人员和开发者探索和实验数据集，以获得洞察力并创建创新的 NLP 应用程序。

引用

如果您在研究或项目中使用 MAAU Subreddit Memes Dataset，请考虑按以下方式引用：

bibtex @dataset{maau-memes-dataset, title = {MAAU Subreddit Memes Dataset}, author = {ElWapoteDev}, year = {2023}, publisher = {HuggingFace}, howpublished = {https://huggingface.co/datasets/ElWapoteDev/parquet-subreddit-maau}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集