russian_oil_gas_news_telegram_dataset

Hugging Face2024-11-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ScoutieService/russian_oil_gas_news_telegram_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

数据集收集自30个俄语Telegram新闻频道，主题为石油和天然气行业，使用Scoutie服务自动收集和标记。

创建时间：

2024-11-12

原始信息汇总

Russian Oil and Gas News Telegram Dataset

概述

任务类别:
- 文本分类
- 零样本分类
- 文本生成
- 标记分类
语言:
- 俄语
标签:
- LLM
- 分类
- 石油
- 天然气
数据集大小:
- 10K<n<100K

描述

英文描述: 从30个俄语Telegram新闻频道收集的关于石油和天然气行业的数据集，使用Scoutie数据收集和标记服务自动收集和标记。
俄文描述: 从30个俄语Telegram新闻频道收集的关于石油和天然气行业的数据集，使用Scoutie数据收集和标记服务自动收集和标记。

数据集字段

taskId: Scoutie服务中的任务标识符。
text: 主要文本。
url: 发布链接。
sourceLink: Telegram链接。
subSourceLink: 频道链接。
views: 文本浏览量。
likes: 对于此数据集，为空字段（表示情感数量）。
createTime: 发布日期，unix时间格式。
createTime: 发布收集日期，unix时间格式。
clusterId: 集群ID。
vector: 文本嵌入（其向量表示）。
ners: 识别的命名实体数组，其中lemma是单词的词形还原表示，label是标签名称，start_pos是实体在文本中的起始位置，end_pos是实体在文本中的结束位置。
sentiment: 文本的情感色彩：POSITIVE, NEGATIVE, NEUTRAL。
language: 文本语言：RUS, ENG。
spam: 文本分类为广告或非广告：NOT_SPAM - 无广告，否则SPAM - 文本标记为广告。
length: 文本中的标记数量（单词）。
markedUp: 表示文本是否在Scoutie服务框架内标记，取值为true或false。

搜集汇总

数据集介绍

构建方式

该数据集通过Scoutie数据收集与标注服务，从30个俄语Telegram新闻频道中自动采集并标注了与石油和天然气行业相关的新闻内容。Scoutie服务不仅自动化了数据的收集过程，还通过其内置的算法对文本进行了情感分析、命名实体识别以及广告分类等多维度的标注，确保了数据的多样性和准确性。

特点

该数据集涵盖了丰富的字段信息，包括文本内容、发布链接、情感分析结果、命名实体识别结果以及文本的向量表示等。特别值得一提的是，数据集中的文本情感分析结果分为正面、负面和中性三类，命名实体识别则提供了实体的词形还原表示及其在文本中的位置信息。此外，数据集还包含了文本的广告分类信息，进一步增强了其在文本分类任务中的应用价值。

使用方法

该数据集适用于多种自然语言处理任务，如文本分类、零样本分类、文本生成、特征提取等。研究人员可以通过分析文本的情感倾向、识别文本中的命名实体以及判断文本是否为广告，来深入理解石油和天然气行业的相关动态。此外，数据集的向量表示字段为文本的嵌入表示提供了直接支持，便于在深度学习模型中进行特征提取和相似度计算。

背景与挑战

背景概述

俄罗斯石油与天然气新闻Telegram数据集（Russian Oil and Gas News Telegram Dataset）是一个专注于石油与天然气行业的文本数据集，涵盖了从30个俄语Telegram新闻频道中自动收集和标注的新闻内容。该数据集由Scoutie数据收集与标注服务构建，旨在为自然语言处理任务提供丰富的文本资源。其核心研究问题在于如何通过自动化手段从海量新闻数据中提取有价值的信息，并应用于文本分类、零样本分类、文本生成、特征提取等多个自然语言处理领域。该数据集的创建标志着石油与天然气行业新闻分析在俄语语境下的重要进展，为相关领域的研究提供了数据支持。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，石油与天然气行业的新闻内容通常包含大量专业术语和复杂语境，这对文本分类和实体识别任务提出了较高的技术要求。其次，自动化标注过程中可能存在标注误差，尤其是在情感分析和命名实体识别等任务中，如何确保标注的准确性和一致性是一个关键问题。此外，Telegram平台上的新闻数据具有动态性和多样性，如何有效处理不同来源的文本格式和语言风格，也是数据集构建中的一大挑战。最后，数据集的规模虽然较大，但其覆盖的新闻频道和主题范围有限，可能无法全面反映石油与天然气行业的整体动态，这在一定程度上限制了其应用场景的广泛性。

常用场景

经典使用场景

在能源信息分析领域，Russian Oil and Gas News Telegram Dataset 被广泛应用于文本分类、情感分析和命名实体识别等任务。该数据集通过自动化的数据收集和标注，提供了丰富的俄语石油和天然气行业新闻文本，为研究人员和从业者提供了宝贵的资源。特别是在零样本分类和特征提取任务中，该数据集展现了其独特的优势，能够帮助模型在没有大量标注数据的情况下进行有效学习。

实际应用

在实际应用中，Russian Oil and Gas News Telegram Dataset 被广泛用于能源市场分析、舆情监控和风险管理等领域。通过分析新闻文本中的情感倾向和关键实体，企业可以及时了解市场动态，制定相应的策略。同时，该数据集还可以用于构建智能推荐系统，帮助用户快速获取与其兴趣相关的能源行业信息。

衍生相关工作

基于 Russian Oil and Gas News Telegram Dataset，研究人员已经开展了多项经典工作。例如，利用该数据集进行的情感分析模型训练，显著提高了模型在俄语文本中的情感识别准确率。此外，该数据集还被用于开发跨语言信息处理系统，推动了多语言自然语言处理技术的发展。这些工作不仅验证了数据集的有效性，也为后续研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集