raeidsaqur/Hansard
收藏数据集概述
基本信息
- 许可证: MIT
- 语言: 英语, 法语
- 任务类别: 翻译
- 数据集名称: hansard
- 数据集大小: 100K<n<1M
数据集描述
加拿大Hansard是加拿大议会会议的官方语言(英语和法语)档案。
使用指南
下载数据集
数据集可以从这里下载,或者使用以下bash脚本: bash bash download_hansard.sh
数据集结构
数据集以csv和parquet文件格式提供,每个分区一个文件:train.[csv|parquet]和test.csv。还提供了一个包含所有示例的hansard.[csv|parquet]文件。分区大小如下:
加载数据集
可以使用Python加载数据集,例如: python dataset = { "train": csv.load(open("./Hansard/train.csv", "r"))["dataset"], "test": csv.load(open("./Hansard/test.csv", "r"))["dataset"], }
或者使用HuggingFace Datasets库: python
pip install datasets
from datasets import load_dataset
dataset = load_dataset("raeidsaqur/hansard")
贡献
欢迎对该仓库进行贡献(发现拼写错误?bug?)。提出更改的步骤如下: bash git clone https://github.com/raeidsaqur/hansard cd hansard git checkout -b my-branch pip install -r requirements.txt pip install -e .
更改完成后,确保代码格式正确并提交拉取请求。
引用
如果在工作中使用了加拿大Hansard数据集,请考虑引用我们的论文:
@article{raeidsaqur2024Hansard, title = {The Canadian Hansard Dataset for Analyzing Dialect Efficiencies in Language Models}, author = {Raeid Saqur}, year = 2024, journal = {ArXiv}, url = }
致谢
感谢多伦多大学计算机科学系CSC401/2511教学团队的所有成员。



