five

RBB150

收藏
github2016-11-12 更新2024-05-31 收录
下载链接:
https://github.com/linkedtv/videocorpus
下载链接
链接失效反馈
官方服务:
资源简介:
当前包含从RBB转录稿中收集的150份文档。内容涵盖柏林和勃兰登堡地区的新闻主题,如洪水、交通堵塞、移民、体育和政治事件以及地方行政。由于内容的地区性,数据集还频繁使用实体的缩写名,直接或间接引用当地(选举)或历史事件。

The current dataset comprises 150 documents collected from RBB transcripts. The content covers news topics from the Berlin and Brandenburg regions, including floods, traffic jams, immigration, sports, political events, and local administration. Due to the regional nature of the content, the dataset frequently uses abbreviated names of entities and directly or indirectly references local (election) or historical events.
创建时间:
2016-03-10
原始信息汇总

数据集概述

数据集名称

  • 名称: RBB150

数据集内容

  • 文档数量: 150
  • 来源: 来自RBB的转录文档
  • 包含内容:
    • tutorial: GATE教程,用于标注者
    • guideline: 标注指南
    • subs: 原始字幕/转录
    • ontology: 原始和丰富化的本体(通过自动添加子类型到原始本体创建)
    • gold: 黄金标准,包括多种格式(csv, nif等)

数据集特点

  • 地域性: 内容来自柏林和勃兰登堡
  • 新闻主题: 洪水、交通堵塞、移民、体育和政治事件、地方行政
  • 实体引用: 频繁使用实体的缩写名,直接或间接引用地方(选举)或历史事件(如1953年东德起义或1963年肯尼迪访问柏林的周年纪念)

版权与许可

  • 版权归属: MODUL大学维也纳,2015-2016
  • 许可: CC-BY-NC-ND 3.0

贡献者

  • 转录提供: Rundfunk Berlin-Brandenburg - RBB,通过LinkedTV项目
  • 数据集归属: MODUL大学维也纳
  • 标注: 匿名标注者在开发团队监督下完成
  • 开发: Adrian M.P. Brasoveanu,在Dr. Lyndon Nixon, Prof. Dr. Albert Weichselbraun, 和 Prof. DDr. Arno Scharl的监督下进行
搜集汇总
数据集介绍
main_image_url
构建方式
RBB150数据集的构建基于Rundfunk Berlin-Brandenburg(RBB)转录文本,共计150篇文档。数据集的构建涉及多个环节,包括对转录文本的采集、制定标注指南、构建原始及扩充本体,以及形成黄金标准标注集。该过程在MODUL University Vienna的监督下,由Adrian M.P. Brasoveanu负责开发,并在匿名标注者的协作下完成标注工作。
特点
RBB150数据集的特点体现在其地域性与主题多样性上。内容主要围绕柏林和勃兰登堡地区,涉及洪水、交通堵塞、移民、体育和政治事件以及地方行政等新闻主题。由于内容的地域性,数据集中频繁出现对实体名称的缩写以及当地选举或历史事件的直接或间接引用,为实体链接性能评估提供了丰富的语境。
使用方法
使用RBB150数据集时,用户可依据其提供的黄金标准标注集进行实体链接的性能评估。数据集包含教程、标注指南、原始字幕/转录文本、本体和多种格式的黄金标准标注文件。用户需遵循CC-BY-NC-ND 3.0许可协议,确保在非商业用途和非派生作品的前提下使用和分发该数据集。
背景与挑战
背景概述
RBB150数据集,创建于2015-2016年,是由MODUL University Vienna开发,旨在为命名实体链接性能评估提供视频字幕资源。该数据集汇集了150份来自Rundfunk Berlin-Brandenburg(RBB)转录的文档,内容主要涉及柏林和勃兰登堡地区的新闻话题,如洪水、交通堵塞、移民、体育和政治事件以及地方行政等。数据集的特色在于其对地区性名称的频繁使用,以及对当地或历史事件的直接或间接引用,为相关研究提供了丰富而独特的资源。
当前挑战
RBB150数据集在构建过程中面临了诸多挑战。首先,由于地区特色鲜明,实体名称的缩写和地方事件引用为注释工作带来了困难。其次,构建一个包含多种格式标注标准的金标集(gold standard)需要高度的专业性和一致性,这对标注团队提出了较高的要求。此外,数据集的地区特性也对其在更广泛领域的适用性提出了挑战,如何确保该数据集能够适应更广泛的语言和地区环境,是未来研究和应用中需解决的问题。
常用场景
经典使用场景
RBB150数据集作为命名实体链接性能评估的资源,其经典使用场景主要在于对电视新闻转录文本中的命名实体进行识别与链接。该数据集包含150份来自RBB转录的文档,其内容涵盖洪水、交通堵塞、移民、体育和政治事件以及地方行政等新闻主题,为研究者提供了一个丰富的实体链接研究和测试平台。
解决学术问题
该数据集解决了命名实体链接领域中地域性强的文本处理问题,尤其是对于使用缩写名称和含有对本地事件直接或间接引用的文本。通过提供带有金标准标注的数据,RBB150助力学术界在实体识别和链接的准确性、鲁棒性方面取得了显著进展,对于提升自然语言处理系统的理解能力具有重要意义。
衍生相关工作
基于RBB150数据集的研究成果,已经衍生出一系列相关工作,包括但不限于实体识别算法改进、链接质量评估方法的创新以及跨语言实体链接的研究,为相关领域的学术研究提供了坚实基础,推动了知识图谱构建与语义网技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作