FriezaForce/tv2en-cleaned
收藏Hugging Face2026-03-17 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/FriezaForce/tv2en-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- translation
language:
- tvl
- en
size_categories:
- 100K<n<1M
source_datasets:
- jw_org_wol
---
# TV2EN: Tuvaluan-English Parallel Corpus
## Dataset Summary
Cleaned Tuvaluan-English parallel corpus
## Dataset Details
### Data Fields
- **tvl** (string): Text in Tuvaluan
- **en** (string): Text in English
- **domain** (string): Source domain (bible, book/article, daily_text)
- **content_type** (string): Content type (bible_verse, article_paragraph, daily_text)
- **doc_id** (string, optional): Document identifier from JW.org
- **date** (string, optional): Date for daily texts (YYYY-MM-DD format)
### Data Size
- **Total pairs**: 178,371 pairs (~25.3M tokens)
- **Languages**: Tuvaluan (TVL) ↔ English (EN)
- **Domains**: Biblical texts, religious articles, daily devotional content
### Data Quality
**Cleaning Pipeline:**
- Removal of duplicate entries (by ID and content)
- Filtering of malformed entries
- Validation of language pair alignment
- Metadata consistency checks
**Quality Metrics:**
- Parse success rate: >99%
- Duplicate removal: 131K entries removed
- Final retention: 178K high-quality pairs
## Source
All text sourced from Watch Tower Library Online (JW.org/wol):
- **Bible**: 30,838 verse-aligned pairs across 66 books
- **Articles**: 275,430 paragraph-aligned pairs from publications
- **Daily Text**: 3,432 date-aligned devotional pairs (2017-2025)
## Language Coverage
**Tuvaluan (TVL)**
- Native speakers: ~11,000
- Classification: Low-resource Polynesian language
- WOL locale: `lp-vl` (VL, not TVL)
**English (EN)**
- Native content from JW.org English publications
- WOL locale: `lp-e`
## Licensing & Attribution
- **License**: CC-BY-4.0
- **Source**: Watch Tower Bible and Tract Society of Pennsylvania
- **Attribution**: JW.org Watch Tower Library Online (https://www.jw.org/)
## Ethical Considerations
- Content sourced from religious publications
- Reflects Watchtower theological positions
- Suitable for low-resource NLP research
## Citation
```bibtex
@dataset{tv2en_corpus,
title={TV2EN: Tuvaluan-English Parallel Corpus},
author{FriezaForce},
year{2026},
publisher={Hugging Face},
url={https://huggingface.co/datasets/FriezaForce/tv2en-cleaned}
}
```
## Dataset Statistics
- **Min/max sentence length**: Variable (typically 5-200 words per side)
- **Alignment quality**: High (verified manual sampling)
- **Temporal coverage**: 2017-2025 for daily texts
- **Publication coverage**: 22+ publication codes
## Suggested Use Cases
- Machine translation (Tuvaluan ↔ English)
- Low-resource NLP research
- Multilingual model adaptation
- Cross-lingual transfer learning
---
许可证:CC-BY-4.0
任务类别:翻译
语言:图瓦卢语(Tuvaluan)、英语(English)
数据规模区间:100K<n<1M
源数据集:jw_org_wol
---
# TV2EN: 图瓦卢语-英语平行语料库
## 数据集概览
经清洗处理的图瓦卢语-英语平行语料库
## 数据集详情
### 数据字段
- **tvl**(字符串类型):图瓦卢语文本
- **en**(字符串类型):英语文本
- **domain**(字符串类型):来源领域(圣经、书籍/文章、日常文本)
- **content_type**(字符串类型):内容类型(圣经经文、文章段落、日常文本)
- **doc_id**(字符串类型,可选):来自JW.org的文档标识符
- **date**(字符串类型,可选):日常文本的日期,格式为YYYY-MM-DD
### 数据规模
- **总语料对数量**:178,371对(约25.3M Token)
- **涉及语言**:图瓦卢语(TVL)↔英语(EN)
- **覆盖领域**:圣经文本、宗教文章、日常灵修内容
### 数据质量
**清洗流程**:
- 基于标识符与内容去除重复条目
- 过滤格式错误的条目
- 验证语对对齐有效性
- 元数据一致性校验
**质量指标**:
- 解析成功率:>99%
- 去重移除条目:131K条
- 最终留存高质量语对:178K条
## 数据来源
所有文本均源自守望台图书馆在线平台(Watch Tower Library Online,JW.org/wol):
- **圣经部分**:涵盖66卷书的30,838条经文对齐语对
- **文章部分**:来自各类出版物的275,430条段落对齐语对
- **日常文本部分**:2017-2025年间的3,432条按日期对齐的灵修语对
## 语言覆盖情况
**图瓦卢语(TVL)**
- 母语使用者:约11,000人
- 语言分类:低资源波利尼西亚语
- WOL平台语言区域代码:`lp-vl`(实际使用VL编码,而非TVL)
**英语(EN)**
- 英语文本源自JW.org的英文出版物
- WOL平台语言区域代码:`lp-e`
## 许可与署名要求
- **许可证**:CC-BY-4.0
- **来源机构**:宾夕法尼亚州守望台圣经与书刊协会(Watch Tower Bible and Tract Society of Pennsylvania)
- **署名要求**:JW.org守望台图书馆在线平台(https://www.jw.org/)
## 伦理考量
- 内容源自宗教出版物
- 内容体现守望台的神学立场
- 适用于低资源自然语言处理研究
## 引用格式
bibtex
@dataset{tv2en_corpus,
title={TV2EN: 图瓦卢语-英语平行语料库},
author={FriezaForce},
year={2026},
publisher={Hugging Face},
url={https://huggingface.co/datasets/FriezaForce/tv2en-cleaned}
}
## 数据集统计信息
- **句子长度范围**:不定(单语侧通常为5-200词)
- **对齐质量**:较高(经人工抽样验证)
- **时间覆盖范围**:日常文本覆盖2017-2025年
- **出版物覆盖范围**:22种及以上出版物编码
## 推荐应用场景
- 机器翻译(图瓦卢语↔英语)
- 低资源自然语言处理研究
- 多语言模型适配
- 跨语言迁移学习
提供机构:
FriezaForce



