five

HaifaCLGroup/KnessetCorpus

收藏
Hugging Face2025-04-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/HaifaCLGroup/KnessetCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
Knesset (以色列议会) 进程语料库是一个包含超过3500万句子的希伯来语注释语料库,涵盖1992年至2024年以色列议会的所有会议记录。这个语料库的句子被注释了多种语言信息,包括词性、形态学特征、依存关系和命名实体。同时,它还包含了关于发言人的详细元信息,如人口统计和政治属性。

The Knesset (Israeli Parliament) Proceedings Corpus is an annotated corpus of Hebrew parliamentary proceedings containing over 35 million sentences from all the sessions (plenary and committee) held in the Israeli parliament from 1992 to 2024. The sentences are annotated with various levels of linguistic information, including part-of-speech tags, morphological features, dependency structures, and named entities. They are also associated with detailed meta-information reflecting demographic and political properties of the speakers.
提供机构:
HaifaCLGroup
原始信息汇总

Knesset (Israeli Parliament) Proceedings Corpus

数据集描述

Knesset (Israeli Parliament) Proceedings Corpus 是一个包含超过 3200 万条句子的希伯来语议会会议记录的标注语料库。这些记录涵盖了从 1992 年到 2022 年以色列议会的所有(全体会议和委员会)会议记录。句子被标注了多种语言信息层级,包括词性标签、形态特征、依存结构和命名实体。此外,句子还关联了详细的元信息,反映了发言人的社会和政治属性,这些信息基于我们编纂的议会成员和派系的大型数据库。

数据集子集

ALL_Features_Sentences

  • name: "all_features_sentences"
  • description: 包含语料库中所有句子的样本,以及数据集中可用的所有特征。
  • Number of examples: 32,832,205

Non-Morphological_Features_Sentences

  • name: "no_morph_all_features_sentences"
  • description: 与 ALL_Features_Sentences 相同,但没有形态特征。
  • Number of examples: 32,832,205

KnessetMembers

  • name: "knessetMembers"
  • description: 包含数据集中议会成员及其元数据信息的样本。
  • Number of examples: 1,100

Factions

  • name: "factions"
  • description: 包含数据集中所有派系及其元数据信息的样本。
  • Number of examples: 153

Protocols

  • name: "protocols"
  • description: 包含数据集中所有会议记录及其元数据信息的样本。
  • Number of examples: 41,319

Committees_ALL_Features_Sentences

  • name: "committees_all_features_sentences"
  • description: 包含委员会会议中所有句子的样本,以及数据集中可用的所有特征。
  • Number of examples: 24,805,925

Plenary_ALL_Features_Sentences

  • name: "plenary_all_features_sentences"
  • description: 包含全体会议中所有句子的样本,以及数据集中可用的所有特征。
  • Number of examples: 24,805,925

Committees Non-Morphological_Features_Sentences

  • name: "no_morph_committee_all_features_sentences"
  • description: 与 Committees_ALL_Features_Sentences 相同,但没有形态特征。
  • Number of examples: 24,805,925

Plenary Non-Morphological_Features_Sentences

  • name: "no_morph_plenary_all_features_sentences"
  • description: 与 Plenary_ALL_Features_Sentences 相同,但没有形态特征。
  • Number of examples: 24,805,925

数据集实体和字段

Person

  • person_id: 人物的唯一标识符。
  • first_name: 人物的名字。
  • last_name: 人物的姓氏。
  • full_name: 人物的全名。
  • is_knesset_member: 是否为议会成员。
  • gender: 性别。
  • email: 电子邮件。
  • is_current: 是否为当前议会成员。
  • last_updated_date: 最后更新日期。
  • date_of_birth: 出生日期。
  • place_of_birth: 出生地。
  • year_of_aliya: 移民到以色列的年份。
  • date_of_death: 死亡日期。
  • mother_tongue: 母语。
  • religion: 宗教。
  • nationality: 国籍。
  • religious_orientation: 宗教倾向。
  • residence: 居住地。
  • factions_memberships: 派系成员信息。
  • languages: 语言。
  • allSources: 信息来源。
  • wikiLink: 维基百科链接。
  • notes: 备注。

Faction

  • faction_name: 派系名称。
  • faction_popular_initials: 派系常用缩写。
  • faction_id: 派系唯一标识符。
  • active_periods: 活跃期。
  • knesset_numbers: 议会会期。
  • coalition_or_opposition_memberships: 联盟或反对派成员信息。
  • political_orientation: 政治倾向。
  • other_names: 其他名称。
  • notes: 备注。
  • wiki_link: 维基百科链接。

Protocol

  • protocol_name: 会议记录名称。
  • session_name: 会议名称。
  • parent_session_name: 父会议名称。
  • knesset_number: 议会会期。
  • protocol_number: 会议记录编号。
  • protocol_date: 会议日期。
  • is_ocr_output: 是否为 OCR 输出。
  • protocol_type: 会议记录类型。
  • protocol_sentences: 会议记录中的句子。

Sentence

  • sentence_id: 句子唯一标识符。
  • protocol_name: 会议记录名称。
  • speaker_id: 发言人标识符。
  • speaker_name: 发言人姓名。
  • is_valid_speaker: 发言人是否有效。
  • turn_num_in_protocol: 发言顺序。
  • sent_num_in_turn: 句子顺序。
  • sentence_text: 句子内容。
  • is_chairman: 是否为主席。
  • morphological_fields: 形态结构。
  • factuality_fields: 事实性字段。

All_Features_Sentence

  • 结合了 Person、Faction、Protocol 和 Sentence 实体的字段。

许可证

  • 许可证: cc-by-sa-4.0

引用

@misc{goldin2024knesset, title={The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings}, author={Gili Goldin and Nick Howell and Noam Ordan and Ella Rabinovich and Shuly Wintner}, year={2024}, eprint={2405.18115}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作