five

Dataset of Brazilian Federal Senate Session Transcriptions From 2023 with Relevant Topics and Stance Detection Annotations.

收藏
NIAID Data Ecosystem2026-05-01 收录
下载链接:
https://zenodo.org/record/11106903
下载链接
链接失效反馈
官方服务:
资源简介:
[pt-BR] Conjunto de dados de transcrições de sessões do Senado Federal brasileiro de 2023 com anotações de tópicos relevantes e de deteção de posicionamento. Dataset description This set contains transcript data from 203 Federal Senate sessions from the year 2023, with annotations of relevant topics and positioning detection. The file meetings.csv has the following structure: session_id: Unique event identifierspeaker_name: Name of the person who gave the speechparty: Political partyspeech: Speech given The folder ground_truth.zip contains 6 JSON annotation files related to the detection of relevant topics and positions, and its main keys are the following: id_session: Unique event identifier response: Model response     list_latent_topics: List of latent topics considered by the model     stances: The stances of each person, according to the model, on a given topicmodel_response_evaluation: Evaluation of the model's response according to a human annotation    mapping: Mapping between the topic named by the model and the topic named in the annotation    list_latent_topics: It contains four keys which are the lists of topics considered true positives, false positives, true negatives and false negatives. Code used All the code used to process the data can be found at: https://github.com/helenbc/tcc-notas-taquigraficas [pt-BR] Descrição do conjunto de dados Este conjunto contém dados de transcrição de 203 sessões do Senado Federal do ano de 2023, com anotações de tópicos relevantes e detecção de posicionamento. O arquivo meetings.csv possui a seguinte estrutura: session_id: Identificador único do evento  speaker_name: Nome da pessoa que fez o discurso  party: Partido político speech: Discurso proferido A pasta ground_truth.zip contém 6 arquivos de anotação JSON relacionados à detecção de tópicos relevantes e posições, e suas principais chaves são as seguintes: id_session: Identificador único do evento response: Resposta do modelo     list_latent_topics: Lista de tópicos latentes considerados pelo modelo     stances: As posições de cada pessoa, de acordo com o modelo, sobre um determinado tópico model_response_evaluation: Avaliação da resposta do modelo de acordo com uma anotação humana     mapping: Mapeamento entre o tópico nomeado pelo modelo e o tópico nomeado na anotação     list_latent_topics: Contém quatro chaves que são as listas de tópicos considerados verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos. Código utilizado Todo o código utilizado para processar os dados pode ser encontrado em: https://github.com/helenbc/tcc-notas-taquigraficas
创建时间:
2024-05-02
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作