five

K-Monitor/kmdb_base

收藏
Hugging Face2025-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/K-Monitor/kmdb_base
下载链接
链接失效反馈
官方服务:
资源简介:
K-Monitor sajtóadatbázis数据集是一个包含匈牙利语新闻文章的数据集,数据量在10K到100K之间。数据集包含多个特征,如新闻ID、标题、描述、文本、来源URL、存档URL、K-Monitor数据库URL、报纸名称、类别、文件、发布时间、人物、机构、地点和其他标签。数据集主要用于新闻分析和文本处理任务。

The K-Monitor sajtóadatbázis dataset is a collection of Hungarian-language news articles, containing between 10,000 and 100,000 items. It includes multiple features such as news ID, title, description, full text, source URL, archive URL, K-Monitor database URL, newspaper name, category, file, publication time, persons, organizations, locations, and other tags. This dataset is primarily utilized for news analysis and text processing tasks.
提供机构:
K-Monitor
原始信息汇总

K-Monitor sajtóadatbázis 数据集概述

数据集信息

  • 语言: 匈牙利语
  • 数据量: 10K<n<100K
  • 数据集名称: K-Monitor sajtóadatbázis

数据集特征

  • news_id: 新闻的K-Monitor标识符
  • title: 新闻门户提供的标题(可能不完整,参见kmonitor_title)
  • source_url: 指向新闻门户的文章URL
  • kmdb_url: 指向K-Monitor数据库中文章记录的URL
  • newspaper: 新闻门户的名称
  • pub_time: 发布时间
  • authors: 文章作者(可能不准确或缺失)
  • text: 文章正文,已清理(不能为空,但可能不完整)
  • meta_keywords: 新闻门户的标签(不一定总是存在或有意义)
  • meta_description: 新闻门户提供的简介
  • url: 文章URL,已规范化
  • kmonitor_title: 同标题
  • publish_date: 文章发布日期,精度不一,有时可能无意义
  • kmonitor_description: K-Monitor数据库中存储的描述(经常为空,有时与正常描述一致)
  • kmonitor_places: K-Monitor志愿者标记的地点
  • kmonitor_persons: K-Monitor志愿者标记的人物
  • kmonitor_others: K-Monitor志愿者标记的其他关键词(不一定在文章中出现)
  • kmonitor_institutions: K-Monitor志愿者标记的机构

数据集分割

  • train: 训练集
    • 字节数: 243123503.81640086
    • 样本数: 46914

数据集大小

  • 下载大小: 140573780
  • 数据集大小: 243123503.81640086

配置

  • config_name: default
    • 数据文件:
      • split: train
      • path: data/train-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
kmdb_base是一个匈牙利语新闻文本数据集,包含63,855条新闻记录,涵盖多种新闻类别和实体信息,适用于文本分析和数据挖掘任务。数据集以parquet格式存储,总大小为171 MB。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作