Bazsalanszky/reddit_hu
收藏Hugging Face2024-03-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bazsalanszky/reddit_hu
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- hu
license: cc-by-3.0
pretty_name: r
dataset_info:
features:
- name: title
dtype: string
- name: author_flair_text
dtype: string
- name: selftext
dtype: string
- name: subreddit
dtype: string
- name: is_video
dtype: bool
- name: num_crossposts
dtype: int64
- name: subreddit_subscribers
dtype: int64
- name: url
dtype: string
- name: num_comments
dtype: int64
- name: author
dtype: string
- name: treatment_tags
sequence: 'null'
- name: all_awardings
sequence: 'null'
- name: is_crosspostable
dtype: bool
- name: view_count
dtype: 'null'
- name: after
dtype: string
- name: downs
dtype: int64
- name: ups
dtype: int64
- name: comments
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
list:
- name: author
dtype: string
- name: body
dtype: string
- name: downs
dtype: int64
- name: replies
sequence: 'null'
- name: ups
dtype: int64
- name: ups
dtype: int64
- name: ups
dtype: int64
- name: ups
dtype: int64
- name: ups
dtype: int64
- name: ups
dtype: int64
- name: ups
dtype: int64
- name: ups
dtype: int64
- name: ups
dtype: int64
- name: ups
dtype: int64
splits:
- name: train
num_bytes: 1447024568
num_examples: 138944
download_size: 736424735
dataset_size: 1447024568
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Magyar reddit adathalmaz
Ez az adathalmaz egy átfogó gyűjteményt tartalmaz, körülbelül 140 000 Reddit bejegyzéssel az r/hungary és r/askhungary subredditekről (későbbiekben több is lehet), hozzászólásokkal együtt (bár nem mindegyikhez). Az adathalmaz különösen az utóbbi pár hét posztjait öleli fel, és célja, hogy támogatást nyújtson az informális magyar nyelvtanításban, különösen nagynyelvi modellek fejlesztéséhez. A gyűjtemény gazdag forrása a különböző témákban folytatott vitáknak, véleményeknek és lekérdezéseknek, amelyek kiváló alapot biztosítanak a nyelv elsajátításához a valóságban használt nyelvezettel.
## Bias és Korlátozások
Fontos megjegyezni, hogy bár ez az adathalmaz rendkívül hasznos lehet a magyar nyelvtanítás szempontjából, tartalmazhat bizonyos fajta előítéleteket vagy biasokat, amelyek a Reddit felhasználói közösségének véleményein alapulnak. Az ilyen típusú adatok elemzésekor és felhasználásakor érdemes figyelembe venni, hogy a vélemények és témák reprezentatív jellege korlátozott lehet, és nem feltétlenül tükrözik a magyar nyelvű közösség vagy a magyar kultúra teljes spektrumát. Ezért ajánlott kritikai szemmel megközelíteni az adatokat, és törekedni a különböző forrásokból származó információk integrálására a kiegyensúlyozottabb és átfogóbb megértés érdekében a nyelvtanítás terén.
提供机构:
Bazsalanszky
原始信息汇总
匈牙利Reddit数据集
数据集概述
该数据集包含约140,000条来自r/hungary和r/askhungary子版块的Reddit帖子及其评论(并非所有帖子都有评论)。数据集主要涵盖了最近几周的帖子,旨在支持非正式匈牙利语教学,特别是大语言模型的开发。该数据集是各种主题讨论、意见和查询的丰富来源,为学习实际使用的语言提供了良好的基础。
数据集特征
- title: 字符串类型
- author_flair_text: 字符串类型
- selftext: 字符串类型
- subreddit: 字符串类型
- is_video: 布尔类型
- num_crossposts: 64位整数类型
- subreddit_subscribers: 64位整数类型
- url: 字符串类型
- num_comments: 64位整数类型
- author: 字符串类型
- treatment_tags: 序列类型,值为null
- all_awardings: 序列类型,值为null
- is_crosspostable: 布尔类型
- view_count: 值为null
- after: 字符串类型
- downs: 64位整数类型
- ups: 64位整数类型
- comments: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 列表类型
- author: 字符串类型
- body: 字符串类型
- downs: 64位整数类型
- replies: 序列类型,值为null
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
- ups: 64位整数类型
数据集分割
- train: 包含138,944个样本,总字节数为1,447,024,568
数据集大小
- 下载大小: 736,424,735字节
- 数据集大小: 1,447,024,568字节
配置
- default: 包含训练数据文件,路径为
data/train-*
偏见与限制
尽管该数据集在匈牙利语教学方面非常有用,但它可能包含基于Reddit用户社区意见的某些偏见或偏见。在分析和使用此类数据时,应注意意见和主题的代表性可能有限,不一定反映匈牙利语社区或匈牙利文化的全貌。因此,建议以批判性的眼光看待数据,并努力整合来自不同来源的信息,以实现更平衡和全面的理解。



