hynky/czech_news_dataset_v2
收藏Hugging Face2024-06-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hynky/czech_news_dataset_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从2000年至2022年主要在线新闻媒体收集的新闻文章。数据集的特征包括URL、作者、标题、摘要、关键词、类别、内容、评论数量、服务器、作者性别、星期几和日期等。数据集分为训练集、验证集和测试集,并提供了每个集的大小和示例数量。数据集的许可证为odc-by,任务类别包括文本分类和摘要生成,语言为捷克语,标签为新闻。
该数据集包含从2000年至2022年主要在线新闻媒体收集的新闻文章。数据集的特征包括URL、作者、标题、摘要、关键词、类别、内容、评论数量、服务器、作者性别、星期几和日期等。数据集分为训练集、验证集和测试集,并提供了每个集的大小和示例数量。数据集的许可证为odc-by,任务类别包括文本分类和摘要生成,语言为捷克语,标签为新闻。
提供机构:
hynky
原始信息汇总
数据集概述
数据集信息
特征
- url: 字符串类型
- authors: 字符串序列
- headline: 字符串类型
- brief: 字符串类型
- keywords: 字符串序列
- category: 分类标签,包含以下类别:
- 0: None
- 1: Zahraniční
- 2: Domácí
- 3: Sport
- 4: Kultura
- 5: Revue
- 6: Koktejl
- 7: Ekonomika
- 8: Krimi
- 9: Podnikání
- 10: Auto
- 11: Věda
- 12: Komentáře
- 13: Cestování
- 14: Finance
- 15: Technologie
- 16: Bydlení
- 17: Koronavirus
- 18: Byznys
- 19: Rozhovory
- 20: Podcasty
- 21: Životní styl
- 22: Literatura
- 23: Vánoce
- 24: Výtvarné umění
- 25: Kolo
- content: 大字符串类型
- comments_num: 32位整数类型
- server: 分类标签,包含以下类别:
- 0: None
- 1: seznamzpravy
- 2: idnes
- 3: aktualne
- 4: novinky
- 5: denik
- 6: irozhlas
- category_unclean: 字符串类型
- authors_gender: 分类标签序列,包含以下类别:
- 0: None
- 1: MAN
- 2: WOMAN
- authors_cum_gender: 分类标签,包含以下类别:
- 0: None
- 1: MAN
- 2: WOMAN
- 3: MIXED
- day_of_week: 分类标签,包含以下类别:
- 0: None
- 1: MONDAY
- 2: TUESDAY
- 3: WEDNESDAY
- 4: THURSDAY
- 5: FRIDAY
- 6: SATURDAY
- 7: SUNDAY
- date: 时间戳类型
数据分割
- train:
- 字节数: 5140455719
- 样本数: 1641471
- validation:
- 字节数: 529659351
- 样本数: 144836
- test:
- 字节数: 553381092
- 样本数: 144837
数据集大小
- 下载大小: 4133635457
- 数据集大小: 6223496162
许可证
- cc0-1.0
任务类别
- 文本分类
- 摘要生成
语言
- 捷克语 (cs)
标签
- 新闻
数据集名称
- CZE-NEC
数据集规模
- 1M<n<10M



