usc-isi/hansards

Name: usc-isi/hansards
Creator: usc-isi
Published: 2024-01-18 11:04:33
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/usc-isi/hansards

下载链接

链接失效反馈

官方服务：

资源简介：

该版本包含来自加拿大第36届议会官方记录（Hansards）的130万对对齐文本块（句子或更小的片段）。完整的Hansards记录包括众议院和参议院的辩论，尽可能对齐后，语料库被分为五组句子对：训练集（占句子对的80%）、两组测试集（各占5%）和两组最终评估集（各占5%）。当前版本包含训练集和测试集，评估集保留用于未来的机器翻译评估目的，目前不可用。需要注意的是，该版本仅包含句子对，可能存在由于多对一、多对多或一对多对齐被过滤掉而导致的句子顺序不一致，因此可能不适用于与话语相关的研究。此外，句子分割和对齐并不完美，特别是长度差异较大的句子对，可能需要在统计训练前进行过滤。

This version contains 1.3 million aligned text chunks (sentences or shorter segments) from the official records of the 36th Canadian Parliament (Hansards). The complete Hansards corpus covers debates from both the House of Commons and the Senate. After aligning the records as thoroughly as possible, the corpus was split into five sets of sentence pairs: a training set (80% of all pairs), two test sets (5% each), and two final evaluation sets (5% each). This release only includes the training and test sets; the evaluation sets are reserved for future machine translation evaluation and are not currently available. Notably, this version only contains sentence pairs, and sentence order inconsistencies may arise due to the filtering of one-to-many, many-to-one, or many-to-many alignments. As such, it may not be suitable for discourse-related research. Additionally, sentence segmentation and alignment are not perfect, particularly for sentence pairs with large length discrepancies, and filtering may be required prior to statistical training.

提供机构：

usc-isi

原始信息汇总

数据集卡片：hansards

数据集概述

数据集摘要

该数据集包含130万对来自第36届加拿大议会官方记录（Hansards）的对齐文本块（句子或更小的片段）。数据集分为训练和测试集，其中训练集占80%，测试集占10%。评估集目前不可用，保留用于未来的机器翻译评估。

数据集结构

数据实例

house

下载的数据文件大小： 67.58 MB
生成的数据集大小： 214.37 MB
总磁盘使用量： 281.95 MB

训练集示例： json { "en": "Mr. Walt Lastewka (Parliamentary Secretary to Minister of Industry, Lib.):", "fr": "M. Walt Lastewka (secrétaire parlementaire du ministre de lIndustrie, Lib.):" }

senate

下载的数据文件大小： 15.25 MB
生成的数据集大小： 46.03 MB
总磁盘使用量： 61.28 MB

训练集示例： json { "en": "Mr. Walt Lastewka (Parliamentary Secretary to Minister of Industry, Lib.):", "fr": "M. Walt Lastewka (secrétaire parlementaire du ministre de lIndustrie, Lib.):" }

数据字段

house

fr: 字符串类型特征。
en: 字符串类型特征。

senate

fr: 字符串类型特征。
en: 字符串类型特征。

数据分割

名称	训练集	测试集
house	947969	122290
senate	182135	25553

数据集创建

数据集配置

senate

特征：
- fr: 字符串类型
- en: 字符串类型
分割：
- test: 5711686字节，25553个样本
- train: 40324278字节，182135个样本
下载大小： 15247360字节
数据集大小： 46035964字节

house

特征：
- fr: 字符串类型
- en: 字符串类型
分割：
- test: 22906629字节，122290个样本
- train: 191459584字节，947969个样本
下载大小： 67584000字节
数据集大小： 214366213字节

搜集汇总

数据集介绍

构建方式

在机器翻译研究领域，平行语料的构建是模型训练的基础。该数据集源自加拿大第36届国会众议院和参议院的官方辩论记录（Hansards），通过自动对齐技术从完整的会议记录中提取出约130万对英法双语文本片段。这些对齐的句子或较小文本块经过精心划分，形成了训练集与测试集，其中训练集占比80%，测试集则各占5%。值得注意的是，对齐过程可能存在不完美之处，例如过滤了多对多等复杂对齐关系，因此语料在篇章连贯性方面存在一定局限。

特点

该数据集在机器翻译领域展现出鲜明的特点，其核心价值在于提供了大规模、高质量的英法双语平行文本。数据涵盖众议院与参议院两个独立配置，分别包含94.8万和18.2万条训练样本，确保了语料的多样性与覆盖面。文本内容源自正式政治辩论，语言风格严谨规范，富含专业术语与政治表述，为翻译模型提供了丰富的领域特征。然而，由于自动句对齐的固有缺陷，部分句子对可能存在长度差异显著或对齐误差，使用前需进行适当筛选以确保数据质量。

使用方法

该数据集主要应用于统计机器翻译与神经机器翻译模型的训练与评估。研究人员可直接加载‘house’或‘senate’配置，分别访问众议院或参议院版本的平行语料。典型工作流程包括：利用训练集进行模型参数学习，随后在测试集上验证翻译性能。鉴于数据可能存在对齐噪声，建议实施预处理步骤，如基于长度比例过滤异常句子对，以提升模型训练的稳定性。此外，该语料不适用于篇章级研究，因其仅保留句子级对齐且可能存在序列间隙。

背景与挑战

背景概述

在机器翻译研究领域，双语平行语料库的构建是推动统计与神经机器翻译模型发展的基石。HANSARDS数据集由南加州大学信息科学研究所（USC-ISI）在DARPA TIDES项目资助下创建，源自加拿大第36届议会的官方辩论记录（Hansards）。该数据集涵盖了超过130万条英法对齐的文本片段，旨在为机器翻译系统提供高质量、大规模的训练与评估资源。其核心研究问题聚焦于如何从真实、复杂的政治语料中自动抽取精确的句子级对齐，以提升翻译模型在正式文本领域的处理能力。该数据集的发布显著促进了上世纪九十年代末至本世纪初机器翻译技术的进步，成为早期统计机器翻译研究的关键基准之一。

当前挑战

HANSARDS数据集所针对的机器翻译任务面临多重挑战。政治辩论文本包含大量专业术语、复杂句法及文化特定表达，对翻译模型的领域适应性与语义保真度提出了高要求。在构建过程中，挑战主要源于原始语料的对齐与清洗。自动句子对齐技术难以完美处理一对多、多对多等复杂对齐情况，导致数据集中存在对齐间隙。此外，自动分句可能产生长度差异悬殊的句对，影响后续统计训练的稳定性。这些不完美的对齐与分句结果意味着数据集可能不适用于需要严格连贯性的语篇研究，使用者需进行额外的数据过滤与预处理以保障模型训练质量。

常用场景

经典使用场景

在机器翻译研究领域，汉萨德数据集作为经典的双语平行语料库，其核心应用场景在于训练和评估统计机器翻译模型。该数据集源自加拿大议会辩论记录，包含超过百万句英法对齐文本，为早期基于短语或句法的翻译系统提供了丰富的训练样本。研究者利用其规范的政论语言和精准的句级对齐特性，构建翻译概率表与语言模型，推动了统计翻译方法的性能边界。

解决学术问题

汉萨德数据集有效解决了机器翻译研究中大规模高质量双语数据稀缺的瓶颈问题。其权威的官方文本来源确保了语言表达的规范性与领域一致性，为翻译模型消歧、词对齐算法优化以及跨语言表示学习提供了坚实基础。该数据集促进了翻译质量自动评价指标的发展，并成为验证数据稀疏环境下模型泛化能力的重要基准，对早期统计机器翻译理论体系的完善具有里程碑意义。

衍生相关工作

围绕汉萨德数据集衍生的经典工作包括IBM系列统计翻译模型的开创性研究，以及基于该数据集的词对齐工具GIZA++的广泛使用。众多机器翻译评测会议将其作为核心训练语料，催生了大量关于双语词典归纳、领域自适应翻译的学术成果。后续研究进一步挖掘其在跨语言信息检索、低资源语言迁移学习中的潜力，形成了以议会语料为轴心的多语言技术研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集