five

Ten Thousand German News Articles Dataset 一万篇德国新闻文章数据集

收藏
阿里云天池2026-06-08 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/94107
下载链接
链接失效反馈
官方服务:
资源简介:
英语文本分类数据集很常见。 例如大型 AG 新闻、类丰富的 20 个新闻组和用于主题分类的大型 DBpedia 本体论数据集,例如用于情绪分析的常用 IMDb 和 Yelp 数据集。 非英语数据集,尤其是德语数据集,不太常见。 德国情绪分析兴趣小组汇集了一组情绪分析数据集。 然而,据我所知,没有德国主题分类数据集是可用的公众。

English text classification datasets are very common. Typical examples include the large-scale AG News dataset, the category-rich 20 Newsgroups dataset, the large DBpedia ontology dataset for topic classification, as well as the widely used IMDb and Yelp datasets for sentiment analysis. Non-English text datasets, particularly German-language ones, are relatively rare. The German Sentiment Analysis Interest Group has compiled a set of sentiment analysis datasets. However, to the best of my knowledge, no publicly available German topic classification datasets are accessible.
提供机构:
阿里云天池
创建时间:
2021-03-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含10273篇来自奥地利在线报纸的德语新闻文章,涵盖九个主题,专为多类文本分类设计。作为首个公开的德语主题分类数据集,它旨在支持德语自然语言处理工具的开发,并可作为相关任务的基准数据集。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务