cjvt/ParlaMint3
收藏数据集概述
数据集总结
ParlaMint 3.0 是一个包含26个多语言可比语料库的数据集,主要包含从2015年开始至2022年中期的议会辩论记录,每个语料库的大小在9到125百万字之间。
语言
数据集包含以下语言:斯洛文尼亚语、奥地利语、波斯尼亚语、比利时语、保加利亚语、捷克语、丹麦语、爱沙尼亚语、加泰罗尼亚语、加利西亚语、法语、英国语、希腊语、克罗地亚语、匈牙利语、冰岛语、意大利语、拉脱维亚语、荷兰语、挪威语、波兰语、葡萄牙语、塞尔维亚语、瑞典语、土耳其语、乌克兰语。
数据集结构
数据实例
以下是数据集中的一个样本实例:
json { "ID": "ParlaMint-SI_2022-04-06-SDZ8-Izredna-99.u227", "Title": "Minutes of the National Assembly of the Republic of Slovenia, Term 8, Extraordinary Session 99, (06. 04. 2022)", "Date": "2022-04-06", "Body": "Lower house", "Term": "8", "Session": "", "Meeting": 99, "Sitting": "", "Agenda": "", "Subcorpus": "War", "Speaker_role": "Regular", "Speaker_MP": "MP", "Speaker_Minister": "-", "Speaker_party": "Levica", "Speaker_party_name": "Levica", "Party_status": "Opposition", "Speaker_name": "Koražija, Boštjan", "Speaker_gender": "M", "Speaker_birth": "1974", "text": "[[…]]Pa celo poslanec z Prekmurja, no, kaj sem rekel [[…]] [[nemir v dvorani]] Zdaj bodite pa tiho, v redu, okej. No, kot rečeno, gre se za to, da se zaščiti tudi kot Prekmurje samo in tudi takrat se je, ne vemo, kdo in zakaj je širil neke, bom rekel, nebuloze oziroma tudi »fake news« po Prekmurju, v smislu, čez, da Levica želi prepovedati geotermalno energijo oziroma pač samo uporabo, kar ne drži. V Levici smo za geotermalno energijo, smo pa seveda proti [[znak za konec razprave]] in strogo proti frekingu, to kar ste želeli vi doseči prej, ampak ste potem videli, da zaradi glasovanja, ki se je že zgodilo na prejšnji seji, da tega ne boste dosegli in ste tudi morali popustit. In srečen sem za Prekmurje in srečen sem za vzhodno Slovenijo, da smo končno nekaj pametnega naredili. Hvala. " }
数据字段
- ID: 每个示例的唯一标识符;
- Title: 议会辩论的标题或标题;
- Date: 议会辩论发生的日期;
- Body: 辩论发生的主要议会会议室或议院;
- Term: 辩论进行的立法任期或会议编号;
- Session: 辩论举行的特定会议或任期的一部分;
- Meeting: 会议在会议或任期内的数字标识符或计数;
- Sitting: 较大会议或会议的特定部分或部分;
- Agenda: 记录所属的主要语料库的子集或类别;
- Subcorpus: 记录所属的主要语料库的子集或类别;
- Speaker_role: 辩论期间发言人的角色或职位,例如主席、主要发言人等;
- Speaker_MP: 指示发言人是否为议会议员;
- Speaker_Minister: 指示发言人是否为部长或担任行政职务;
- Speaker_party: 发言人的政党的缩写代码或标识符;
- Speaker_party_name: 发言人所属政党的全名;
- Party_status: 政党在议会会议中的地位或立场,例如执政党、反对党等;
- Speaker_name: 辩论期间发言人的全名;
- Speaker_gender: 发言人的性别;
- Speaker_birth: 发言人的出生年份;
- text: 辩论期间口语内容的转录。




