five

mshojaei77/PersianPoetryQuotes

收藏
Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/mshojaei77/PersianPoetryQuotes
下载链接
链接失效反馈
官方服务:
资源简介:
PersianPoetryQuotes数据集是一个从各种Telegram频道提取的波斯语消息集合,主要内容包括浪漫和诗歌引用,偶尔包含政治或幽默内容。该数据集旨在捕捉现代数字通信中波斯文学表达的精髓。数据集支持多种自然语言处理(NLP)任务,如文本生成、情感分析、主题建模等。数据集的结构为JSON对象,每个对象包含两个字段:from表示消息来源的Telegram频道或用户,text表示消息内容。

PersianPoetryQuotes is a collection of Persian messages extracted from various Telegram channels, primarily consisting of romantic and poetic quotes with occasional political or humorous content. This dataset supports various NLP tasks such as text generation, sentiment analysis, topic modeling, and cultural and linguistic studies. The primary language is Persian (Farsi), and the dataset is structured as JSON objects, each representing a single message with fields from (identifier of the Telegram channel or user who posted the message) and text (content of the message).
提供机构:
mshojaei77
原始信息汇总

PersianPoetryQuotes Dataset

数据集描述

数据集概述

PersianPoetryQuotes 是从多个 Telegram 频道中提取的波斯语消息集合。该数据集主要包含浪漫和诗意的引言,偶尔也包含政治或幽默内容。它旨在捕捉现代数字通信中的波斯文学表达精髓。

支持的任务

该数据集支持多种自然语言处理(NLP)任务,包括但不限于:

  • 文本生成
  • 情感分析
  • 主题建模
  • 文化和语言研究

语言

数据集的主要语言是波斯语(Farsi)。

数据集结构

数据集结构为 JSON 对象的集合,每个对象代表一条消息。每个条目包含以下字段:

  • from:发布消息的 Telegram 频道或用户的名称或标识符
  • text:消息内容

数据实例

示例 1: json { "from": "[ اُتاق آبی ]", "text": "سیاستمداران و پوشک بچههاباید زود به زود عوض شوند ،هر دو به یک دلیل !👤 مارک تواین", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作