its5Q/otvetmailru
收藏Hugging Face2024-03-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/its5Q/otvetmailru
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从otvet.mail.ru网站抓取的问题和答案数据集,包含约1.3亿个问题及其对应的元数据,数据收集截止日期为2022年3月5日。数据集主要使用俄语,但也可能包含其他语言。数据集的结构部分提到由于数据类型不一致,数据集查看器暂时无法使用,但可以通过下载ZSTD压缩块来使用数据。数据是通过AJAX端点抓取的,每个端点通过自动递增的ID返回完整的问题和答案元数据。
这是一个从otvet.mail.ru网站抓取的问题和答案数据集,包含约1.3亿个问题及其对应的元数据,数据收集截止日期为2022年3月5日。数据集主要使用俄语,但也可能包含其他语言。数据集的结构部分提到由于数据类型不一致,数据集查看器暂时无法使用,但可以通过下载ZSTD压缩块来使用数据。数据是通过AJAX端点抓取的,每个端点通过自动递增的ID返回完整的问题和答案元数据。
提供机构:
its5Q
原始信息汇总
数据集卡片 for otvet.mail.ru questions
数据集描述
数据集概述
这是一个从 otvet.mail.ru 抓取的问题和答案数据集。大约有 1.3 亿个问题及其相应的元数据,这些数据是在 2022 年 3 月 5 日之前发布的(数据集收集日期)。这是我在 Kaggle 上的数据集的重传。
语言
数据集主要为俄语,但也可能包含其他语言。
数据集结构
请参考数据集查看器以获取更多关于数据集结构的信息。
目前数据集查看器无法工作,因为样本之间数据类型不一致。我稍后会尝试修复,但目前可以通过下载 ZSTD 压缩的块来使用数据集,每个块包含 2,500,000 个样本。
数据集创建
数据是通过使用返回完整问题和答案元数据的 AJAX 端点抓取的,这些端点按自动递增的 ID 返回数据。
附加信息
数据集策展人
- https://github.com/its5Q



