K-Monitor/kmdb_base
收藏Hugging Face2025-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/K-Monitor/kmdb_base
下载链接
链接失效反馈官方服务:
资源简介:
K-Monitor sajtóadatbázis数据集是一个包含匈牙利语新闻文章的数据集,数据量在10K到100K之间。数据集包含多个特征,如新闻ID、标题、描述、文本、来源URL、存档URL、K-Monitor数据库URL、报纸名称、类别、文件、发布时间、人物、机构、地点和其他标签。数据集主要用于新闻分析和文本处理任务。
The K-Monitor sajtóadatbázis dataset is a collection of Hungarian-language news articles, containing between 10,000 and 100,000 items. It includes multiple features such as news ID, title, description, full text, source URL, archive URL, K-Monitor database URL, newspaper name, category, file, publication time, persons, organizations, locations, and other tags. This dataset is primarily utilized for news analysis and text processing tasks.
提供机构:
K-Monitor
原始信息汇总
K-Monitor sajtóadatbázis 数据集概述
数据集信息
- 语言: 匈牙利语
- 数据量: 10K<n<100K
- 数据集名称: K-Monitor sajtóadatbázis
数据集特征
- news_id: 新闻的K-Monitor标识符
- title: 新闻门户提供的标题(可能不完整,参见kmonitor_title)
- source_url: 指向新闻门户的文章URL
- kmdb_url: 指向K-Monitor数据库中文章记录的URL
- newspaper: 新闻门户的名称
- pub_time: 发布时间
- authors: 文章作者(可能不准确或缺失)
- text: 文章正文,已清理(不能为空,但可能不完整)
- meta_keywords: 新闻门户的标签(不一定总是存在或有意义)
- meta_description: 新闻门户提供的简介
- url: 文章URL,已规范化
- kmonitor_title: 同标题
- publish_date: 文章发布日期,精度不一,有时可能无意义
- kmonitor_description: K-Monitor数据库中存储的描述(经常为空,有时与正常描述一致)
- kmonitor_places: K-Monitor志愿者标记的地点
- kmonitor_persons: K-Monitor志愿者标记的人物
- kmonitor_others: K-Monitor志愿者标记的其他关键词(不一定在文章中出现)
- kmonitor_institutions: K-Monitor志愿者标记的机构
数据集分割
- train: 训练集
- 字节数: 243123503.81640086
- 样本数: 46914
数据集大小
- 下载大小: 140573780
- 数据集大小: 243123503.81640086
配置
- config_name: default
- 数据文件:
- split: train
- path: data/train-*
- 数据文件:
搜集汇总
数据集介绍

背景与挑战
背景概述
kmdb_base是一个匈牙利语新闻文本数据集,包含63,855条新闻记录,涵盖多种新闻类别和实体信息,适用于文本分析和数据挖掘任务。数据集以parquet格式存储,总大小为171 MB。
以上内容由遇见数据集搜集并总结生成



