five

ElWapoteDev/parquet-subreddit-maau

收藏
Hugging Face2023-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ElWapoteDev/parquet-subreddit-maau
下载链接
链接失效反馈
官方服务:
资源简介:
MAAU Subreddit Memes数据集是一个包含来自[r/MAAU]子论坛的评论和回复的集合。该子论坛专注于分享和讨论幽默内容,包括表情包、笑话和讽刺帖子。数据集以Parquet格式提供,便于存储和检索。
提供机构:
ElWapoteDev
原始信息汇总

MAAU Subreddit Memes Dataset

数据集描述

MAAU Subreddit Memes Dataset 是从 r/MAAU 子论坛收集的评论和回复的集合。该子论坛专注于分享和讨论幽默内容,包括表情包、笑话和讽刺帖子。数据集以 Parquet 格式提供,便于存储和检索。

数据收集

数据集通过使用 Python 脚本从 r/MAAU 子论坛获取帖子和评论来收集。Python 脚本利用 Reddit API 访问所需内容。数据收集过程涉及检索多种西班牙语评论和回复,展示了该子论坛独特的幽默和风格。

数据集结构

数据集由代表 r/MAAU 子论坛评论和回复的文本条目组成。每个条目都包含在一对标签 <s></s> 中,表示评论或回复的开始和结束。以下是数据集结构的示例:

txt <s>[INST] Todo, ya fallamos como especie, no hay nada que podamos hacer para detenerlo [/INST] Mejor nos extingamos</s> <s>[INST] Awebo que ya inicie una 3ra Guerra Mundial [/INST] Ya quiero ver los COD que saldran gracias a eso </s> <s>[INST] A m me reportaron un post por delito de odio xd era un delfn dibujando una esvstica (basado) [/INST] si bro que gracioso, apoco si tiln sigue contndonos</s>

数据集以 Parquet 格式提供,确保高效的存储和与各种数据处理框架的轻松集成。

使用

MAAU Subreddit Memes Dataset 可用于多种 NLP 任务,包括但不限于:

  • 表情包评论的情感分析。
  • 幽默检测和分类。
  • 语言生成和文本生成。
  • 非正式在线文本的风格分析。

鼓励研究人员和开发者探索和实验数据集,以获得洞察力并创建创新的 NLP 应用程序。

引用

如果您在研究或项目中使用 MAAU Subreddit Memes Dataset,请考虑按以下方式引用:

bibtex @dataset{maau-memes-dataset, title = {MAAU Subreddit Memes Dataset}, author = {ElWapoteDev}, year = {2023}, publisher = {HuggingFace}, howpublished = {https://huggingface.co/datasets/ElWapoteDev/parquet-subreddit-maau}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作