DFKI-SLT/brat

Name: DFKI-SLT/brat
Creator: DFKI-SLT
Published: 2023-12-11 09:54:08
License: 暂无描述

Hugging Face2023-12-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/brat

下载链接

链接失效反馈

官方服务：

资源简介：

Brat是一个基于Web的文本注释工具，支持多种NLP任务，旨在通过NLP技术提高注释者的生产力。数据集的结构包括文本文件和对应的注释文件，注释文件以standoff格式存储。数据实例展示了注释的具体内容，包括文本、注释的跨度、关系等。数据字段详细描述了每个字段的含义和结构。使用方法部分介绍了如何通过`load_dataset()`方法加载数据集，并提供了示例代码。附加信息部分包括引用信息，但许可证信息缺失。

提供机构：

DFKI-SLT

原始信息汇总

数据集概述

描述

Brat 是一个直观的基于 Web 的文本标注工具，由自然语言处理（NLP）技术支持。Brat 旨在为多种 NLP 任务提供丰富的结构化标注，支持手动整理工作并利用 NLP 技术提高标注者生产力。Brat 特别设计用于结构化标注，其中标注不是自由形式的文本，而是具有固定形式，可以由计算机自动处理和解释。

数据集结构

使用 Brat 格式标注的数据集通过脚本处理。Brat 创建的标注以 standoff 格式存储在磁盘上：标注与被标注的文档文本分开存储，且文本不会被工具修改。每个文本文档都有一个对应的标注文件，两者通过文件命名约定关联，例如，文件 DOC-1000.ann 包含文件 DOC-1000.txt 的标注。

数据实例

json { "context": "<?xml version="1.0" encoding="UTF-8" standalone="no"?> <Document xmlns:gate="http://www.gat...", "file_name": "A01", "spans": { "id": ["T1", "T2", "T4", "T5", "T6", "T3", "T7", "T8", "T9", "T10", "T11", "T12",...], "type": ["background_claim", "background_claim", "background_claim", "own_claim",...], "locations": [{"start": [2417], "end": [2522]}, {"start": [2524], "end": [2640]},...], "text": ["complicated 3D character models...", "The range of breathtaking realistic...", ...] }, "relations": { "id": ["R1", "R2", "R3", "R4", "R5", "R6", "R7", "R8", "R9", "R10", "R11", "R12",...], "type": ["supports", "supports", "supports", "supports", "contradicts", "contradicts",...], "arguments": [{"type": ["Arg1", "Arg2"], "target": ["T4", "T5"]},...] }, "equivalence_relations": {"type": [], "targets": []}, "events": {"id": [], "type": [], "trigger": [], "arguments": []}, "attributions": {"id": [], "type": [], "target": [], "value": []}, "normalizations": {"id": [], "type": [], "target": [], "resource_id": [], "entity_id": []}, "notes": {"id": [], "type": [], "target": [], "note": []} }

数据字段

context (str): 数据文件的文本内容
file_name (str): 数据/标注文件的名称（无扩展名）
spans (dict): context 字符串的跨度标注
- id (str): 跨度的 ID，以 T 开头
- type (str): 跨度的标签
- locations (list): 指示跨度位置的索引（由于片段而可能是多个），包含字典
  - start (list of int): 指示跨度片段包含字符起始位置的索引
  - end (list of int): 指示跨度片段独占字符结束位置的索引
- text (list of str): 跨度片段的文本
relations (dict): spans 元素之间的关系序列
- id (str): 关系的 ID，以 R 开头
- type (str): 关系的标签
- arguments (list of dict): 与关系相关的跨度，包含字典
  - type (list of str): 跨度在关系中的参数角色，为 Arg1 或 Arg2
  - target (list of str): 作为关系参数的跨度
equivalence_relations (dict): 包含 type 和 target（更多信息需要）
events (dict): 包含 id, type, trigger, 和 arguments（更多信息需要）
attributions (dict): 任何其他标注的属性标注
- id (str): 属性标注的实例 ID
- type (str): 属性标注的类型
- target (str): 属性标注的目标标注 ID
- value (str): 属性标注的值或标记
normalizations (dict): 特定文本表达所指的现实世界实体的唯一标识
- id (str): 规范化实体的实例 ID
- type (str): 规范化实体的类型
- target (str): 规范化实体的目标标注 ID
- resource_id (str): 与规范化实体关联的资源
- entity_id (str): 规范化实体的实例 ID
notes (dict): 添加到标注中的自由形式文本
- id (str): 笔记的实例 ID
- type (str): 笔记的类型
- target (str): 相关标注的 ID
- note (str): 笔记的文本内容

使用

brat 数据集脚本可以通过调用 load_dataset() 方法并传递 BratConfig 接受的任何参数来使用。至少需要 url 参数。完整参数列表如下：

url (str): 指向包含 Brat 数据（*.txt）和标注（*.ann）文件的 zip 文件或目录的 URL
description (str, 可选): 数据集的描述
citation (str, 可选): 数据集的引用
homepage (str, 可选): 数据集的主页
split_paths (dict, 可选): 将（任意）分割名称映射到子目录或文件列表（无扩展名），例如 {"train": "path/to/train_directory", "test": "path/to/test_director"} 或 {"train": ["path/to/train_file1", "path/to/train_file2"]}。在两种情况下（子目录路径或文件路径），路径相对于 URL。如果未提供 split_paths，数据集将从根目录加载，所有直接子文件夹将被视为分割。
file_name_blacklist (list, 可选): 应忽略的文件名列表（无扩展名），例如 ["A28"]。如果数据集包含无效的 Brat 文件，这很有用。

重要提示：使用 load_dataset() 方法的 data_dir 参数会覆盖 BratConfig 的 url 参数。

附加信息

许可信息

需要更多信息

引用信息

@inproceedings{stenetorp-etal-2012-brat, title = "brat: a Web-based Tool for {NLP}-Assisted Text Annotation", author = "Stenetorp, Pontus and Pyysalo, Sampo and Topi{c}, Goran and Ohta, Tomoko and Ananiadou, Sophia and Tsujii, Jun{}ichi", booktitle = "Proceedings of the Demonstrations at the 13th Conference of the {E}uropean Chapter of the Association for Computational Linguistics", month = apr, year = "2012", address = "Avignon, France", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/E12-2021", pages = "102--107", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集