five

IlyaGusev/ru_stackoverflow

收藏
Hugging Face2023-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/IlyaGusev/ru_stackoverflow
下载链接
链接失效反馈
官方服务:
资源简介:
Russian StackOverflow数据集包含来自ru.stackoverflow.com的问题、答案和评论,主要用于文本生成和问答任务。数据以俄语为主,包含一些编程代码。数据集的特征包括问题ID、URL、答案数量、HTML和Markdown格式的文本、评分、标题、标签、浏览量、作者、时间戳、评论和答案等。数据集的大小在100K到1M之间,训练集包含437,604个实例。数据集的来源是Russian StackOverflow网站,处理脚本和原始XML文件也提供了链接。数据集未匿名化,包含原始作者的信息,并根据CC BY-SA 2.5许可证分发。
提供机构:
IlyaGusev
原始信息汇总

Russian StackOverflow dataset

数据集概述

基本信息

  • 许可证: other
  • 任务类别:
    • text-generation
    • question-answering
  • 语言: Russian
  • 数据集大小: 100K<n<1M

数据集特征

  • question_id: uint32
  • url: string
  • answer_count: uint32
  • text_html: string
  • text_markdown: string
  • score: int32
  • title: string
  • tags: sequence of string
  • views: uint64
  • author: string
  • timestamp: uint64
  • comments: sequence
    • text: string
    • author: string
    • comment_id: uint32
    • score: int32
    • timestamp: uint64
  • answers: sequence
    • answer_id: uint32
    • is_accepted: uint8
    • text_html: string
    • text_markdown: string
    • score: int32
    • author: string
    • timestamp: uint64
    • comments: sequence
      • text: string
      • author: string
      • comment_id: uint32
      • score: int32
      • timestamp: uint64

数据集分割

  • train
    • num_bytes: 3013377174
    • num_examples: 437604
  • 下载大小: 670468664
  • 数据集大小: 3013377174

数据实例

{ "question_id": 11235, "answer_count": 1, "url": "https://ru.stackoverflow.com/questions/11235", "score": 2, "tags": ["c++", "сериализация"], "title": "Извлечение из файла, запись в файл", "views": 1309, "author": "...", "timestamp": 1303205289, "text_html": "...", "text_markdown": "...", "comments": { "text": ["...", "..."], "author": ["...", "..."], "comment_id": [11236, 11237], "score": [0, 0], "timestamp": [1303205411, 1303205678] }, "answers": { "answer_id": [11243, 11245], "timestamp": [1303207791, 1303207792], "is_accepted": [1, 0], "text_html": ["...", "..."], "text_markdown": ["...", "..."], "score": [3, 0], "author": ["...", "..."], "comments": { "text": ["...", "..."], "author": ["...", "..."], "comment_id": [11246, 11249], "score": [0, 0], "timestamp": [1303207961, 1303207800] } } }

许可证信息

  • 许可证: CC BY-SA 2.5
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作