ElWapoteDev/parquet-subreddit-maau
收藏MAAU Subreddit Memes Dataset
数据集描述
MAAU Subreddit Memes Dataset 是从 r/MAAU 子论坛收集的评论和回复的集合。该子论坛专注于分享和讨论幽默内容,包括表情包、笑话和讽刺帖子。数据集以 Parquet 格式提供,便于存储和检索。
数据收集
数据集通过使用 Python 脚本从 r/MAAU 子论坛获取帖子和评论来收集。Python 脚本利用 Reddit API 访问所需内容。数据收集过程涉及检索多种西班牙语评论和回复,展示了该子论坛独特的幽默和风格。
数据集结构
数据集由代表 r/MAAU 子论坛评论和回复的文本条目组成。每个条目都包含在一对标签 <s> 和 </s> 中,表示评论或回复的开始和结束。以下是数据集结构的示例:
txt <s>[INST] Todo, ya fallamos como especie, no hay nada que podamos hacer para detenerlo [/INST] Mejor nos extingamos</s> <s>[INST] Awebo que ya inicie una 3ra Guerra Mundial [/INST] Ya quiero ver los COD que saldran gracias a eso </s> <s>[INST] A m me reportaron un post por delito de odio xd era un delfn dibujando una esvstica (basado) [/INST] si bro que gracioso, apoco si tiln sigue contndonos</s>
数据集以 Parquet 格式提供,确保高效的存储和与各种数据处理框架的轻松集成。
使用
MAAU Subreddit Memes Dataset 可用于多种 NLP 任务,包括但不限于:
- 表情包评论的情感分析。
- 幽默检测和分类。
- 语言生成和文本生成。
- 非正式在线文本的风格分析。
鼓励研究人员和开发者探索和实验数据集,以获得洞察力并创建创新的 NLP 应用程序。
引用
如果您在研究或项目中使用 MAAU Subreddit Memes Dataset,请考虑按以下方式引用:
bibtex @dataset{maau-memes-dataset, title = {MAAU Subreddit Memes Dataset}, author = {ElWapoteDev}, year = {2023}, publisher = {HuggingFace}, howpublished = {https://huggingface.co/datasets/ElWapoteDev/parquet-subreddit-maau}, }



