five

its5Q/otvetmailru

收藏
Hugging Face2024-03-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/its5Q/otvetmailru
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从otvet.mail.ru网站抓取的问题和答案数据集,包含约1.3亿个问题及其对应的元数据,数据收集截止日期为2022年3月5日。数据集主要使用俄语,但也可能包含其他语言。数据集的结构部分提到由于数据类型不一致,数据集查看器暂时无法使用,但可以通过下载ZSTD压缩块来使用数据。数据是通过AJAX端点抓取的,每个端点通过自动递增的ID返回完整的问题和答案元数据。

这是一个从otvet.mail.ru网站抓取的问题和答案数据集,包含约1.3亿个问题及其对应的元数据,数据收集截止日期为2022年3月5日。数据集主要使用俄语,但也可能包含其他语言。数据集的结构部分提到由于数据类型不一致,数据集查看器暂时无法使用,但可以通过下载ZSTD压缩块来使用数据。数据是通过AJAX端点抓取的,每个端点通过自动递增的ID返回完整的问题和答案元数据。
提供机构:
its5Q
原始信息汇总

数据集卡片 for otvet.mail.ru questions

数据集描述

数据集概述

这是一个从 otvet.mail.ru 抓取的问题和答案数据集。大约有 1.3 亿个问题及其相应的元数据,这些数据是在 2022 年 3 月 5 日之前发布的(数据集收集日期)。这是我在 Kaggle 上的数据集的重传。

语言

数据集主要为俄语,但也可能包含其他语言。

数据集结构

请参考数据集查看器以获取更多关于数据集结构的信息。
目前数据集查看器无法工作,因为样本之间数据类型不一致。我稍后会尝试修复,但目前可以通过下载 ZSTD 压缩的块来使用数据集,每个块包含 2,500,000 个样本。

数据集创建

数据是通过使用返回完整问题和答案元数据的 AJAX 端点抓取的,这些端点按自动递增的 ID 返回数据。

附加信息

数据集策展人

  • https://github.com/its5Q
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作