Dataset of Brazilian Federal Senate Session Transcriptions From 2023 with Relevant Topics and Stance Detection Annotations.

NIAID Data Ecosystem2026-05-01 收录

下载链接：

https://zenodo.org/record/11106903

下载链接

链接失效反馈

官方服务：

资源简介：

[pt-BR] Conjunto de dados de transcrições de sessões do Senado Federal brasileiro de 2023 com anotações de tópicos relevantes e de deteção de posicionamento. Dataset description This set contains transcript data from 203 Federal Senate sessions from the year 2023, with annotations of relevant topics and positioning detection. The file meetings.csv has the following structure: session_id: Unique event identifierspeaker_name: Name of the person who gave the speechparty: Political partyspeech: Speech given The folder ground_truth.zip contains 6 JSON annotation files related to the detection of relevant topics and positions, and its main keys are the following: id_session: Unique event identifier response: Model response list_latent_topics: List of latent topics considered by the model stances: The stances of each person, according to the model, on a given topicmodel_response_evaluation: Evaluation of the model's response according to a human annotation mapping: Mapping between the topic named by the model and the topic named in the annotation list_latent_topics: It contains four keys which are the lists of topics considered true positives, false positives, true negatives and false negatives. Code used All the code used to process the data can be found at: https://github.com/helenbc/tcc-notas-taquigraficas [pt-BR] Descrição do conjunto de dados Este conjunto contém dados de transcrição de 203 sessões do Senado Federal do ano de 2023, com anotações de tópicos relevantes e detecção de posicionamento. O arquivo meetings.csv possui a seguinte estrutura: session_id: Identificador único do evento speaker_name: Nome da pessoa que fez o discurso party: Partido político speech: Discurso proferido A pasta ground_truth.zip contém 6 arquivos de anotação JSON relacionados à detecção de tópicos relevantes e posições, e suas principais chaves são as seguintes: id_session: Identificador único do evento response: Resposta do modelo list_latent_topics: Lista de tópicos latentes considerados pelo modelo stances: As posições de cada pessoa, de acordo com o modelo, sobre um determinado tópico model_response_evaluation: Avaliação da resposta do modelo de acordo com uma anotação humana mapping: Mapeamento entre o tópico nomeado pelo modelo e o tópico nomeado na anotação list_latent_topics: Contém quatro chaves que são as listas de tópicos considerados verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos. Código utilizado Todo o código utilizado para processar os dados pode ser encontrado em: https://github.com/helenbc/tcc-notas-taquigraficas

创建时间：

2024-05-02

5,000+

优质数据集

54 个

任务类型

进入经典数据集