hpprc/en-ja-align
收藏Hugging Face2024-03-20 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/en-ja-align
下载链接
链接失效反馈官方服务:
资源简介:
---
license: other
task_categories:
- translation
language:
- en
- ja
pretty_name: en-ja-align
size_categories:
- 10K<n<100K
viewer: false
---
# en-ja-align
[日英対訳文対応付けデータ](https://www2.nict.go.jp/astrec-att/member/mutiyama/align/)(内山ら, 2003)として公開されている日英対訳文データセットです。
本リポジトリはデータセットのダウンロード・解析・前処理のみを行うスクリプトを提供しているものであり、データの再配布はしておりません。
## Usage
データセットの前処理に下記のライブラリを使用します。
データの使用前にインストールをお願いいたします。
```bash
pip install bs4 lxml
```
使用例は以下のとおりです。
```python
import datasets as ds
dataset = ds.load_dataset("hpprc/en-ja-align", num_proc=16, trust_remote_code=True)
print(dataset)
# DatasetDict({
# train: Dataset({
# features: ['id', 'en', 'ja', 'source'],
# num_rows: 42738
# })
# })
print(dataset["train"][1])
# {
# 'id': 'abolition-0/1',
# 'en': 'Work is the source of nearly all the misery in the world.',
# 'ja': '労働こそが、この世のほとんど全ての不幸の源泉なのである。',
# 'source': 'abolition-0.htm',
# }
print(dataset["train"][-1])
# {
# 'id': 'yellow-6/23',
# 'en': '"Watson," said he, "if it should ever strike you that I am getting a
# little overconfident in my powers, or giving less pains to a case than
# it deserves, kindly whisper `Norbury\' in my ear, and I shall be infinitely obliged to you."',
# 'ja': '「ワトソン君」と、彼は寝室にいってからこう云った。「これからもし私が、余り自分の力に頼りすぎていると、
# 君が気づいた時は、そしてまた、事件を余り考えないで扱おうとしているような様子が目についたら、どうか遠慮なく、
# 私の耳へ「ノーブリー」とささやいてくれたまえ。そうすれば、僕は君に永久に恩をきるよ......」',
# 'source': 'yellow-6.htm',
# }
```
## Preprocess
[ホームページ](https://www2.nict.go.jp/astrec-att/member/mutiyama/align/)にて公開されているテキストデータは形態素解析器ChaSenで前処理されており、生文を取得するのが難しかったため、HTM (HTML)ファイルを直接解析することで対訳文を取得しています。
前処理では、NFKC正規化や、クオーテーションの正規化を行なっています。
また、生データ中の複数文に分かれてしまっていた文を結合する処理を行なっています。その際に、会話文などはカギカッコ(「」)で文が別れないようにしました。
前処理の改善案がある方はPull RequestやCommunity Discussionを遠慮なく利用していただければと思います。
## License
[日英対訳文対応付けデータ](https://www2.nict.go.jp/astrec-att/member/mutiyama/align/)には、一部再配布が禁じられているデータセットが存在します。
また、ライセンス関連の記述として以下のような記載があります。
> オリジナルの各作品の著作権は,それぞれの作品の著作権に従います.
> その他のものについては Creative Commons Attribution-ShareAlike 3.0 Unported に従い,それらの著作権は情報通信研究機構多言語翻訳研究室が保持します.
> なお,オリジナルの作品が二次配布を禁止している場合には,そこからの派生物(対訳データなど)も二次配布することを禁止します.
> また,オリジナルの作品が営利目的の利用を禁止している場合には,派生物の営利目的の利用も禁止します.
しかし、すべてのデータについてライセンスを確認するには多少手間がかかります。
そこで本リポジトリでは、ライセンスの問題を可能な限り回避するため、[ダウンロードページ](https://www2.nict.go.jp/astrec-att/member/mutiyama/align/download/index.html)のデータを前処理するスクリプトを提供し、データの再配布をしないという選択をしています。
具体的な処理内容は本リポジトリの[hpprc/en-ja-align/blob/main/en-ja-align.py](https://huggingface.co/datasets/hpprc/en-ja-align/blob/main/en-ja-align.py)に記載されているので、よろしければご覧ください。
## Citation
本リポジトリのデータセットを参考文献等に引用する際には、[日英対訳文対応付けデータ](https://www2.nict.go.jp/astrec-att/member/mutiyama/align/)の節「引用について」に基づき、以下のいずれかの記述による引用をしていただくようお願いいたします。
```
内山将夫,高橋真弓.(2003) 日英対訳文対応付けデータ.
Masao Utiyama and Mayumi Takahashi. (2003) English-Japanese Translation Alignment Data.
```
## Acknowledgement
データセットを作成・公開いただいた内山将夫様、高橋真弓様、そのほかデータの構築に携わった全ての方々に感謝申し上げます。
また、本リポジトリの実装・記述に対してコメントをくださった[ryota39](https://huggingface.co/ryota39)様に感謝申し上げます。
提供机构:
hpprc
原始信息汇总
数据集概述
基本信息
- 数据集名称: en-ja-align
- 语言: 英语(en)、日语(ja)
- 任务类别: 翻译
- 数据集大小: 10K<n<100K
- 许可证: 其他
数据集描述
- 来源: 由内山等人于2003年发布的日英对译文对齐数据,原始数据可在此链接获取。
- 数据处理: 数据集提供下载、解析和预处理脚本,但不进行数据再分配。
数据集使用
- 预处理工具: 使用
bs4和lxml库进行数据预处理。 - 使用示例: 通过
datasets库加载数据集,示例代码展示了如何加载和打印数据集内容。
数据预处理
- 预处理方法: 使用ChaSen进行形态素解析,通过解析HTML文件获取对译文。
- 处理细节: 包括NFKC规范化、引号规范化及合并分隔的文本。
许可证
- 许可证详情: 部分数据禁止再分配,其他遵循Creative Commons Attribution-ShareAlike 3.0 Unported。
- 使用限制: 禁止二次分配和营利目的的使用。
引用信息
- 引用格式: 引用时需遵循原始数据集的引用指南,引用作者为内山将夫和高橋真弓,发布年份为2003年。
致谢
- 贡献者: 感谢内山将夫、高橋真弓及其他参与数据构建的所有人员。
- 特别感谢: 感谢ryota39对本仓库实现和描述的评论。



