five

flax-sentence-embeddings/stackexchange_title_body_jsonl

收藏
Hugging Face2021-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flax-sentence-embeddings/stackexchange_title_body_jsonl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于Stack Exchange的XML文件,格式为jsonl.gz,每行包含一个字典,字典中包含文本和标签信息。文本部分由标题和正文组成,标签部分包含相关标签。数据集经过过滤,过滤条件包括最小标题长度为20,最小正文长度为20,最大正文长度为4096,最小得分为0。如果某个Stack Exchange的问题数量少于10k,则会被写入`small_stackexchanges.jsonl.gz`文件中。数据集的总行数为25,333,327。

This dataset is derived from XML files of Stack Exchange, stored in jsonl.gz format. Each line contains a dictionary holding text and label information. The text section consists of a title and a body, while the label section includes relevant tags. The dataset has been filtered with the following criteria: minimum title length of 20, minimum body length of 20, maximum body length of 4096, and minimum score of 0. For any Stack Exchange community with fewer than 10k questions, their corresponding data will be written to the file `small_stackexchanges.jsonl.gz`. The total number of lines in this dataset is 25,333,327.
提供机构:
flax-sentence-embeddings
原始信息汇总

数据集概述

数据集格式

  • 格式: jsonl.gz
  • 来源: https://huggingface.co/datasets/flax-sentence-embeddings/stackexchange_xml

数据结构

  • 每行内容: 一个字典,包含以下键值对:
    • "text": ["title", "body"]
    • "tags": ["tag1", "tag2"]

过滤参数

  • 最小标题长度: 20
  • 最小正文长度: 20
  • 最大正文长度: 4096
  • 最小评分: 0

数据集文件及大小

  • stackoverflow.com-Posts.jsonl.gz: 18,562,443行
  • math.stackexchange.com.jsonl.gz: 1,338,443行
  • small_stackexchanges.jsonl.gz: 448,146行
  • superuser.com.jsonl.gz: 435,463行
  • askubuntu.com.jsonl.gz: 347,925行
  • serverfault.com.jsonl.gz: 270,904行
  • tex.stackexchange.com.jsonl.gz: 202,954行
  • unix.stackexchange.com.jsonl.gz: 185,997行
  • stats.stackexchange.com.jsonl.gz: 173,466行
  • physics.stackexchange.com.jsonl.gz: 173,307行
  • electronics.stackexchange.com.jsonl.gz: 143,582行
  • gis.stackexchange.com.jsonl.gz: 131,000行
  • mathoverflow.net.jsonl.gz: 120,851行
  • apple.stackexchange.com.jsonl.gz: 110,622行
  • english.stackexchange.com.jsonl.gz: 109,522行
  • salesforce.stackexchange.com.jsonl.gz: 105,260行
  • wordpress.stackexchange.com.jsonl.gz: 100,474行
  • magento.stackexchange.com.jsonl.gz: 99991行
  • sharepoint.stackexchange.com.jsonl.gz: 94011行
  • gaming.stackexchange.com.jsonl.gz: 88912行
  • meta.stackexchange.com.jsonl.gz: 83510行
  • ell.stackexchange.com.jsonl.gz: 83271行
  • dba.stackexchange.com.jsonl.gz: 81871行
  • blender.stackexchange.com.jsonl.gz: 80766行
  • drupal.stackexchange.com.jsonl.gz: 79717行
  • mathematica.stackexchange.com.jsonl.gz: 73131行
  • scifi.stackexchange.com.jsonl.gz: 61528行
  • diy.stackexchange.com.jsonl.gz: 60083行
  • security.stackexchange.com.jsonl.gz: 58000行
  • softwareengineering.stackexchange.com.jsonl.gz: 53942行
  • android.stackexchange.com.jsonl.gz: 51608行
  • gamedev.stackexchange.com.jsonl.gz: 46485行
  • codereview.stackexchange.com.jsonl.gz: 45765行
  • rpg.stackexchange.com.jsonl.gz: 42303行
  • travel.stackexchange.com.jsonl.gz: 41227行
  • cs.stackexchange.com.jsonl.gz: 38314行
  • meta.stackoverflow.com.jsonl.gz: 36456行
  • webmasters.stackexchange.com.jsonl.gz: 34559行
  • chemistry.stackexchange.com.jsonl.gz: 34506行
  • academia.stackexchange.com.jsonl.gz: 34331行
  • ethereum.stackexchange.com.jsonl.gz: 32760行
  • judaism.stackexchange.com.jsonl.gz: 32028行
  • money.stackexchange.com.jsonl.gz: 32021行
  • raspberrypi.stackexchange.com.jsonl.gz: 30625行
  • graphicdesign.stackexchange.com.jsonl.gz: 30233行
  • webapps.stackexchange.com.jsonl.gz: 29697行
  • ux.stackexchange.com.jsonl.gz: 29403行
  • datascience.stackexchange.com.jsonl.gz: 27397行
  • worldbuilding.stackexchange.com.jsonl.gz: 26763行
  • bitcoin.stackexchange.com.jsonl.gz: 25374行
  • biology.stackexchange.com.jsonl.gz: 24447行
  • workplace.stackexchange.com.jsonl.gz: 24189行
  • photo.stackexchange.com.jsonl.gz: 23753行
  • cooking.stackexchange.com.jsonl.gz: 23705行
  • crypto.stackexchange.com.jsonl.gz: 23231行
  • mechanics.stackexchange.com.jsonl.gz: 22868行
  • japanese.stackexchange.com.jsonl.gz: 22056行
  • dsp.stackexchange.com.jsonl.gz: 21252行
  • emacs.stackexchange.com.jsonl.gz: 21055行
  • music.stackexchange.com.jsonl.gz: 20636行
  • movies.stackexchange.com.jsonl.gz: 20181行
  • softwarerecs.stackexchange.com.jsonl.gz: 20142行
  • aviation.stackexchange.com.jsonl.gz: 20139行
  • arduino.stackexchange.com.jsonl.gz: 19553行
  • law.stackexchange.com.jsonl.gz: 17941行
  • puzzling.stackexchange.com.jsonl.gz: 17851行
  • quant.stackexchange.com.jsonl.gz: 17261行
  • rus.stackexchange.com.jsonl.gz: 16871行
  • bicycles.stackexchange.com.jsonl.gz: 16353行
  • space.stackexchange.com.jsonl.gz: 15142行
  • gardening.stackexchange.com.jsonl.gz: 15136行
  • philosophy.stackexchange.com.jsonl.gz: 14829行
  • german.stackexchange.com.jsonl.gz: 13950行
  • networkengineering.stackexchange.com.jsonl.gz: 13454行
  • hinduism.stackexchange.com.jsonl.gz: 13450行
  • craftcms.stackexchange.com.jsonl.gz: 12574行
  • civicrm.stackexchange.com.jsonl.gz: 12543行
  • boardgames.stackexchange.com.jsonl.gz: 12149行
  • christianity.stackexchange.com.jsonl.gz: 12108行
  • history.stackexchange.com.jsonl.gz: 12021行
  • politics.stackexchange.com.jsonl.gz: 11894行
  • expressionengine.stackexchange.com.jsonl.gz: 11866行
  • islam.stackexchange.com.jsonl.gz: 11853行
  • anime.stackexchange.com.jsonl.gz: 11444行
  • economics.stackexchange.com.jsonl.gz: 11115行
  • french.stackexchange.com.jsonl.gz: 10794行
  • engineering.stackexchange.com.jsonl.gz: 10753行
  • cstheory.stackexchange.com.jsonl.gz: 10642行
  • vi.stackexchange.com.jsonl.gz: 10551行
  • astronomy.stackexchange.com.jsonl.gz: 10462行
  • writers.stackexchange.com.jsonl.gz: 10157行
  • skeptics.stackexchange.com.jsonl.gz: 10009行

总行数

  • 总计: 25,333,327行
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作