HaifaCLGroup/KnessetCorpus
收藏Hugging Face2025-04-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/HaifaCLGroup/KnessetCorpus
下载链接
链接失效反馈官方服务:
资源简介:
Knesset (以色列议会) 进程语料库是一个包含超过3500万句子的希伯来语注释语料库,涵盖1992年至2024年以色列议会的所有会议记录。这个语料库的句子被注释了多种语言信息,包括词性、形态学特征、依存关系和命名实体。同时,它还包含了关于发言人的详细元信息,如人口统计和政治属性。
The Knesset (Israeli Parliament) Proceedings Corpus is an annotated corpus of Hebrew parliamentary proceedings containing over 35 million sentences from all the sessions (plenary and committee) held in the Israeli parliament from 1992 to 2024. The sentences are annotated with various levels of linguistic information, including part-of-speech tags, morphological features, dependency structures, and named entities. They are also associated with detailed meta-information reflecting demographic and political properties of the speakers.
提供机构:
HaifaCLGroup
原始信息汇总
Knesset (Israeli Parliament) Proceedings Corpus
数据集描述
Knesset (Israeli Parliament) Proceedings Corpus 是一个包含超过 3200 万条句子的希伯来语议会会议记录的标注语料库。这些记录涵盖了从 1992 年到 2022 年以色列议会的所有(全体会议和委员会)会议记录。句子被标注了多种语言信息层级,包括词性标签、形态特征、依存结构和命名实体。此外,句子还关联了详细的元信息,反映了发言人的社会和政治属性,这些信息基于我们编纂的议会成员和派系的大型数据库。
数据集子集
ALL_Features_Sentences
name: "all_features_sentences"description: 包含语料库中所有句子的样本,以及数据集中可用的所有特征。Number of examples: 32,832,205
Non-Morphological_Features_Sentences
name: "no_morph_all_features_sentences"description: 与 ALL_Features_Sentences 相同,但没有形态特征。Number of examples: 32,832,205
KnessetMembers
name: "knessetMembers"description: 包含数据集中议会成员及其元数据信息的样本。Number of examples: 1,100
Factions
name: "factions"description: 包含数据集中所有派系及其元数据信息的样本。Number of examples: 153
Protocols
name: "protocols"description: 包含数据集中所有会议记录及其元数据信息的样本。Number of examples: 41,319
Committees_ALL_Features_Sentences
name: "committees_all_features_sentences"description: 包含委员会会议中所有句子的样本,以及数据集中可用的所有特征。Number of examples: 24,805,925
Plenary_ALL_Features_Sentences
name: "plenary_all_features_sentences"description: 包含全体会议中所有句子的样本,以及数据集中可用的所有特征。Number of examples: 24,805,925
Committees Non-Morphological_Features_Sentences
name: "no_morph_committee_all_features_sentences"description: 与 Committees_ALL_Features_Sentences 相同,但没有形态特征。Number of examples: 24,805,925
Plenary Non-Morphological_Features_Sentences
name: "no_morph_plenary_all_features_sentences"description: 与 Plenary_ALL_Features_Sentences 相同,但没有形态特征。Number of examples: 24,805,925
数据集实体和字段
Person
person_id: 人物的唯一标识符。first_name: 人物的名字。last_name: 人物的姓氏。full_name: 人物的全名。is_knesset_member: 是否为议会成员。gender: 性别。email: 电子邮件。is_current: 是否为当前议会成员。last_updated_date: 最后更新日期。date_of_birth: 出生日期。place_of_birth: 出生地。year_of_aliya: 移民到以色列的年份。date_of_death: 死亡日期。mother_tongue: 母语。religion: 宗教。nationality: 国籍。religious_orientation: 宗教倾向。residence: 居住地。factions_memberships: 派系成员信息。languages: 语言。allSources: 信息来源。wikiLink: 维基百科链接。notes: 备注。
Faction
faction_name: 派系名称。faction_popular_initials: 派系常用缩写。faction_id: 派系唯一标识符。active_periods: 活跃期。knesset_numbers: 议会会期。coalition_or_opposition_memberships: 联盟或反对派成员信息。political_orientation: 政治倾向。other_names: 其他名称。notes: 备注。wiki_link: 维基百科链接。
Protocol
protocol_name: 会议记录名称。session_name: 会议名称。parent_session_name: 父会议名称。knesset_number: 议会会期。protocol_number: 会议记录编号。protocol_date: 会议日期。is_ocr_output: 是否为 OCR 输出。protocol_type: 会议记录类型。protocol_sentences: 会议记录中的句子。
Sentence
sentence_id: 句子唯一标识符。protocol_name: 会议记录名称。speaker_id: 发言人标识符。speaker_name: 发言人姓名。is_valid_speaker: 发言人是否有效。turn_num_in_protocol: 发言顺序。sent_num_in_turn: 句子顺序。sentence_text: 句子内容。is_chairman: 是否为主席。morphological_fields: 形态结构。factuality_fields: 事实性字段。
All_Features_Sentence
- 结合了 Person、Faction、Protocol 和 Sentence 实体的字段。
许可证
- 许可证: cc-by-sa-4.0
引用
@misc{goldin2024knesset, title={The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings}, author={Gili Goldin and Nick Howell and Noam Ordan and Ella Rabinovich and Shuly Wintner}, year={2024}, eprint={2405.18115}, archivePrefix={arXiv}, primaryClass={cs.CL} }



