five

glossAPI/ert-press

收藏
Hugging Face2026-04-21 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/glossAPI/ert-press
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-nd-4.0 language: - el --- **Dataset Info** This dataset contains an archive of press releases published by ERT (ΕΡΤ — Hellenic Broadcasting Corporation), the Greek public broadcaster. The data has been collected from the official press portal (https://press.ert.gr/category/deltia-typou/). The dataset provides a comprehensive collection of official announcements, media updates, and press communications spanning more than a decade (October 20, 2015 – March 19, 2026). **Metadata Info** | Column | Type | Nullable | Description | |----------|----------------------------------------|----------|--------------------------------------| | title | large_string | Yes | Title of the press release | | datetime | timestamp (µs, Europe/Athens timezone) | Yes | Publication timestamp | | text | large_string | Yes | Full article body text | | url | large_string | No | Original source URL | **Dataset Statistics:** Tokens: 9,790,656 File size: 36,4 MB **Use Cases** This dataset can be useful for: Greek NLP tasks (e.g., text classification, summarization, NER) Temporal analysis of public communications Training language models on Greek formal/journalistic text **License:** This dataset is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0). Any commercial use requires prior written permission from ΕΡΤ — Hellenic Broadcasting Corporation. All intellectual property rights remain with ΕΡΤ — Hellenic Broadcasting Corporation. **Dataset Moved:** This dataset is hosted by the Mozilla Data Collective. Please use the official link below for the most up-to-date version: https://mozilladatacollective.com/datasets/cmo1sg74a00cwmk07q6nin2of **Contact:** For feedback contact: glossapi.team@eellak.gr
提供机构:
glossAPI
搜集汇总
数据集介绍
main_image_url
构建方式
在希腊公共广播领域,ERT新闻稿数据集的构建体现了系统性数据采集的严谨性。该数据集通过自动化爬虫技术,从ERT官方新闻门户网站(press.ert.gr)持续抓取公开发布的新闻稿,时间跨度自2015年10月20日至2026年3月19日,覆盖了超过十年的官方通讯记录。采集过程确保了数据的完整性与时效性,每条记录均包含标题、发布时间戳、全文内容及原始URL,形成了结构化的希腊语新闻语料库。
特点
该数据集的核心特征在于其作为希腊语正式文本的权威代表性。内容全部来源于希腊国家广播公司的官方新闻稿,语言风格严谨规范,适用于训练专业领域的语言模型。数据规模达到约979万词汇量,文件体积36.4MB,提供了充足的语言样本。时间序列属性完整,支持按时间维度进行公共传播趋势分析,为希腊自然语言处理任务奠定了高质量基础。
使用方法
在学术与应用层面,该数据集主要服务于希腊语自然语言处理研究。研究者可将其用于文本分类、自动摘要、命名实体识别等任务,亦能基于时间戳开展公共传播的时序分析。使用前需注意其采用CC BY-NC-ND 4.0许可,禁止商业用途与衍生作品创作。数据以结构化表格形式提供,包含标题、时间、正文与URL字段,便于直接加载至数据分析框架进行后续处理。
背景与挑战
背景概述
在自然语言处理领域,希腊语资源相对稀缺,制约了相关技术发展。ERT-Press数据集由希腊公共广播公司ERT发布,收录了自2015年10月20日至2026年3月19日期间的官方新闻稿,为希腊语文本分析提供了宝贵资源。该数据集由希腊研究团队或机构构建,旨在支持希腊语自然语言处理任务,如文本分类、摘要和命名实体识别,同时促进对公共传播的时序分析,对丰富希腊语语言模型训练数据具有显著影响力。
当前挑战
ERT-Press数据集面临的挑战包括:在领域问题方面,希腊语作为低资源语言,其文本的复杂语法和形态变化增加了自然语言处理任务的难度,如准确进行实体识别和文本摘要;在构建过程中,数据收集需确保从官方新闻门户获取完整且结构化的新闻稿,同时处理时间戳的时区标准化和文本清理,以维护数据质量与一致性,这些挑战共同考验了数据集的可靠性与实用性。
常用场景
经典使用场景
在希腊语自然语言处理领域,ert-press数据集作为希腊公共广播公司发布的官方新闻稿集合,为研究者提供了丰富的正式文本资源。该数据集常被用于训练和评估希腊语文本分类、命名实体识别以及自动摘要生成模型,其内容涵盖政治、经济、文化等多个主题,时间跨度超过十年,能够有效支持对希腊语新闻文本的深度分析与建模。
衍生相关工作
基于ert-press数据集,学术界已衍生出多项经典研究,例如针对希腊语新闻文本的预训练语言模型开发、跨领域文本分类框架构建以及时序情感分析模型设计。这些工作不仅提升了希腊语自然语言处理的技术水平,也为后续的媒体内容分析与多模态信息整合研究奠定了重要基础。
数据集最近研究
最新研究方向
在希腊语自然语言处理领域,ERT-Press数据集凭借其长达十年的官方新闻稿档案,为希腊语文本分析提供了珍贵的语料资源。当前研究聚焦于利用该数据集训练希腊语大语言模型,以提升在新闻文本分类、命名实体识别和自动摘要等任务上的性能。同时,学者们正探索基于时间序列的公共传播模式分析,旨在揭示媒体话语的演变趋势及其社会影响。这些研究方向不仅推动了希腊语NLP技术的发展,也为跨文化媒体研究提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作