five

Bazsalanszky/reddit_hu

收藏
Hugging Face2024-03-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bazsalanszky/reddit_hu
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - hu license: cc-by-3.0 pretty_name: r dataset_info: features: - name: title dtype: string - name: author_flair_text dtype: string - name: selftext dtype: string - name: subreddit dtype: string - name: is_video dtype: bool - name: num_crossposts dtype: int64 - name: subreddit_subscribers dtype: int64 - name: url dtype: string - name: num_comments dtype: int64 - name: author dtype: string - name: treatment_tags sequence: 'null' - name: all_awardings sequence: 'null' - name: is_crosspostable dtype: bool - name: view_count dtype: 'null' - name: after dtype: string - name: downs dtype: int64 - name: ups dtype: int64 - name: comments list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies list: - name: author dtype: string - name: body dtype: string - name: downs dtype: int64 - name: replies sequence: 'null' - name: ups dtype: int64 - name: ups dtype: int64 - name: ups dtype: int64 - name: ups dtype: int64 - name: ups dtype: int64 - name: ups dtype: int64 - name: ups dtype: int64 - name: ups dtype: int64 - name: ups dtype: int64 - name: ups dtype: int64 splits: - name: train num_bytes: 1447024568 num_examples: 138944 download_size: 736424735 dataset_size: 1447024568 configs: - config_name: default data_files: - split: train path: data/train-* --- # Magyar reddit adathalmaz Ez az adathalmaz egy átfogó gyűjteményt tartalmaz, körülbelül 140 000 Reddit bejegyzéssel az r/hungary és r/askhungary subredditekről (későbbiekben több is lehet), hozzászólásokkal együtt (bár nem mindegyikhez). Az adathalmaz különösen az utóbbi pár hét posztjait öleli fel, és célja, hogy támogatást nyújtson az informális magyar nyelvtanításban, különösen nagynyelvi modellek fejlesztéséhez. A gyűjtemény gazdag forrása a különböző témákban folytatott vitáknak, véleményeknek és lekérdezéseknek, amelyek kiváló alapot biztosítanak a nyelv elsajátításához a valóságban használt nyelvezettel. ## Bias és Korlátozások Fontos megjegyezni, hogy bár ez az adathalmaz rendkívül hasznos lehet a magyar nyelvtanítás szempontjából, tartalmazhat bizonyos fajta előítéleteket vagy biasokat, amelyek a Reddit felhasználói közösségének véleményein alapulnak. Az ilyen típusú adatok elemzésekor és felhasználásakor érdemes figyelembe venni, hogy a vélemények és témák reprezentatív jellege korlátozott lehet, és nem feltétlenül tükrözik a magyar nyelvű közösség vagy a magyar kultúra teljes spektrumát. Ezért ajánlott kritikai szemmel megközelíteni az adatokat, és törekedni a különböző forrásokból származó információk integrálására a kiegyensúlyozottabb és átfogóbb megértés érdekében a nyelvtanítás terén.
提供机构:
Bazsalanszky
原始信息汇总

匈牙利Reddit数据集

数据集概述

该数据集包含约140,000条来自r/hungary和r/askhungary子版块的Reddit帖子及其评论(并非所有帖子都有评论)。数据集主要涵盖了最近几周的帖子,旨在支持非正式匈牙利语教学,特别是大语言模型的开发。该数据集是各种主题讨论、意见和查询的丰富来源,为学习实际使用的语言提供了良好的基础。

数据集特征

  • title: 字符串类型
  • author_flair_text: 字符串类型
  • selftext: 字符串类型
  • subreddit: 字符串类型
  • is_video: 布尔类型
  • num_crossposts: 64位整数类型
  • subreddit_subscribers: 64位整数类型
  • url: 字符串类型
  • num_comments: 64位整数类型
  • author: 字符串类型
  • treatment_tags: 序列类型,值为null
  • all_awardings: 序列类型,值为null
  • is_crosspostable: 布尔类型
  • view_count: 值为null
  • after: 字符串类型
  • downs: 64位整数类型
  • ups: 64位整数类型
  • comments: 列表类型
    • author: 字符串类型
    • body: 字符串类型
    • downs: 64位整数类型
    • replies: 列表类型
      • author: 字符串类型
      • body: 字符串类型
      • downs: 64位整数类型
      • replies: 列表类型
        • author: 字符串类型
        • body: 字符串类型
        • downs: 64位整数类型
        • replies: 列表类型
          • author: 字符串类型
          • body: 字符串类型
          • downs: 64位整数类型
          • replies: 列表类型
            • author: 字符串类型
            • body: 字符串类型
            • downs: 64位整数类型
            • replies: 列表类型
              • author: 字符串类型
              • body: 字符串类型
              • downs: 64位整数类型
              • replies: 列表类型
                • author: 字符串类型
                • body: 字符串类型
                • downs: 64位整数类型
                • replies: 列表类型
                  • author: 字符串类型
                  • body: 字符串类型
                  • downs: 64位整数类型
                  • replies: 列表类型
                    • author: 字符串类型
                    • body: 字符串类型
                    • downs: 64位整数类型
                    • replies: 列表类型
                      • author: 字符串类型
                      • body: 字符串类型
                      • downs: 64位整数类型
                      • replies: 列表类型
                        • author: 字符串类型
                        • body: 字符串类型
                        • downs: 64位整数类型
                        • replies: 序列类型,值为null
                        • ups: 64位整数类型
                      • ups: 64位整数类型
                    • ups: 64位整数类型
                  • ups: 64位整数类型
                • ups: 64位整数类型
              • ups: 64位整数类型
            • ups: 64位整数类型
          • ups: 64位整数类型
        • ups: 64位整数类型
      • ups: 64位整数类型
    • ups: 64位整数类型

数据集分割

  • train: 包含138,944个样本,总字节数为1,447,024,568

数据集大小

  • 下载大小: 736,424,735字节
  • 数据集大小: 1,447,024,568字节

配置

  • default: 包含训练数据文件,路径为data/train-*

偏见与限制

尽管该数据集在匈牙利语教学方面非常有用,但它可能包含基于Reddit用户社区意见的某些偏见或偏见。在分析和使用此类数据时,应注意意见和主题的代表性可能有限,不一定反映匈牙利语社区或匈牙利文化的全貌。因此,建议以批判性的眼光看待数据,并努力整合来自不同来源的信息,以实现更平衡和全面的理解。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作