Dataset of Brazilian Federal Senate Session Transcriptions From 2023 with Relevant Topics and Stance Detection Annotations.
收藏NIAID Data Ecosystem2026-05-01 收录
下载链接:
https://zenodo.org/record/11106903
下载链接
链接失效反馈官方服务:
资源简介:
[pt-BR] Conjunto de dados de transcrições de sessões do Senado Federal brasileiro de 2023 com anotações de tópicos relevantes e de deteção de posicionamento.
Dataset description
This set contains transcript data from 203 Federal Senate sessions from the year 2023, with annotations of relevant topics and positioning detection.
The file meetings.csv has the following structure:
session_id: Unique event identifierspeaker_name: Name of the person who gave the speechparty: Political partyspeech: Speech given
The folder ground_truth.zip contains 6 JSON annotation files related to the detection of relevant topics and positions, and its main keys are the following:
id_session: Unique event identifier
response: Model response list_latent_topics: List of latent topics considered by the model stances: The stances of each person, according to the model, on a given topicmodel_response_evaluation: Evaluation of the model's response according to a human annotation mapping: Mapping between the topic named by the model and the topic named in the annotation list_latent_topics: It contains four keys which are the lists of topics considered true positives, false positives, true negatives and false negatives.
Code used
All the code used to process the data can be found at:
https://github.com/helenbc/tcc-notas-taquigraficas
[pt-BR] Descrição do conjunto de dados
Este conjunto contém dados de transcrição de 203 sessões do Senado Federal do ano de 2023, com anotações de tópicos relevantes e detecção de posicionamento.
O arquivo meetings.csv possui a seguinte estrutura:
session_id: Identificador único do evento
speaker_name: Nome da pessoa que fez o discurso
party: Partido político
speech: Discurso proferido
A pasta ground_truth.zip contém 6 arquivos de anotação JSON relacionados à detecção de tópicos relevantes e posições, e suas principais chaves são as seguintes:
id_session: Identificador único do evento
response: Resposta do modelo
list_latent_topics: Lista de tópicos latentes considerados pelo modelo
stances: As posições de cada pessoa, de acordo com o modelo, sobre um determinado tópico
model_response_evaluation: Avaliação da resposta do modelo de acordo com uma anotação humana
mapping: Mapeamento entre o tópico nomeado pelo modelo e o tópico nomeado na anotação
list_latent_topics: Contém quatro chaves que são as listas de tópicos considerados verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.
Código utilizado
Todo o código utilizado para processar os dados pode ser encontrado em:
https://github.com/helenbc/tcc-notas-taquigraficas
创建时间:
2024-05-02



