five

FriezaForce/tv2en-cleaned

收藏
Hugging Face2026-03-17 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/FriezaForce/tv2en-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 task_categories: - translation language: - tvl - en size_categories: - 100K<n<1M source_datasets: - jw_org_wol --- # TV2EN: Tuvaluan-English Parallel Corpus ## Dataset Summary Cleaned Tuvaluan-English parallel corpus ## Dataset Details ### Data Fields - **tvl** (string): Text in Tuvaluan - **en** (string): Text in English - **domain** (string): Source domain (bible, book/article, daily_text) - **content_type** (string): Content type (bible_verse, article_paragraph, daily_text) - **doc_id** (string, optional): Document identifier from JW.org - **date** (string, optional): Date for daily texts (YYYY-MM-DD format) ### Data Size - **Total pairs**: 178,371 pairs (~25.3M tokens) - **Languages**: Tuvaluan (TVL) ↔ English (EN) - **Domains**: Biblical texts, religious articles, daily devotional content ### Data Quality **Cleaning Pipeline:** - Removal of duplicate entries (by ID and content) - Filtering of malformed entries - Validation of language pair alignment - Metadata consistency checks **Quality Metrics:** - Parse success rate: >99% - Duplicate removal: 131K entries removed - Final retention: 178K high-quality pairs ## Source All text sourced from Watch Tower Library Online (JW.org/wol): - **Bible**: 30,838 verse-aligned pairs across 66 books - **Articles**: 275,430 paragraph-aligned pairs from publications - **Daily Text**: 3,432 date-aligned devotional pairs (2017-2025) ## Language Coverage **Tuvaluan (TVL)** - Native speakers: ~11,000 - Classification: Low-resource Polynesian language - WOL locale: `lp-vl` (VL, not TVL) **English (EN)** - Native content from JW.org English publications - WOL locale: `lp-e` ## Licensing & Attribution - **License**: CC-BY-4.0 - **Source**: Watch Tower Bible and Tract Society of Pennsylvania - **Attribution**: JW.org Watch Tower Library Online (https://www.jw.org/) ## Ethical Considerations - Content sourced from religious publications - Reflects Watchtower theological positions - Suitable for low-resource NLP research ## Citation ```bibtex @dataset{tv2en_corpus, title={TV2EN: Tuvaluan-English Parallel Corpus}, author{FriezaForce}, year{2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/FriezaForce/tv2en-cleaned} } ``` ## Dataset Statistics - **Min/max sentence length**: Variable (typically 5-200 words per side) - **Alignment quality**: High (verified manual sampling) - **Temporal coverage**: 2017-2025 for daily texts - **Publication coverage**: 22+ publication codes ## Suggested Use Cases - Machine translation (Tuvaluan ↔ English) - Low-resource NLP research - Multilingual model adaptation - Cross-lingual transfer learning

--- 许可证:CC-BY-4.0 任务类别:翻译 语言:图瓦卢语(Tuvaluan)、英语(English) 数据规模区间:100K<n<1M 源数据集:jw_org_wol --- # TV2EN: 图瓦卢语-英语平行语料库 ## 数据集概览 经清洗处理的图瓦卢语-英语平行语料库 ## 数据集详情 ### 数据字段 - **tvl**(字符串类型):图瓦卢语文本 - **en**(字符串类型):英语文本 - **domain**(字符串类型):来源领域(圣经、书籍/文章、日常文本) - **content_type**(字符串类型):内容类型(圣经经文、文章段落、日常文本) - **doc_id**(字符串类型,可选):来自JW.org的文档标识符 - **date**(字符串类型,可选):日常文本的日期,格式为YYYY-MM-DD ### 数据规模 - **总语料对数量**:178,371对(约25.3M Token) - **涉及语言**:图瓦卢语(TVL)↔英语(EN) - **覆盖领域**:圣经文本、宗教文章、日常灵修内容 ### 数据质量 **清洗流程**: - 基于标识符与内容去除重复条目 - 过滤格式错误的条目 - 验证语对对齐有效性 - 元数据一致性校验 **质量指标**: - 解析成功率:>99% - 去重移除条目:131K条 - 最终留存高质量语对:178K条 ## 数据来源 所有文本均源自守望台图书馆在线平台(Watch Tower Library Online,JW.org/wol): - **圣经部分**:涵盖66卷书的30,838条经文对齐语对 - **文章部分**:来自各类出版物的275,430条段落对齐语对 - **日常文本部分**:2017-2025年间的3,432条按日期对齐的灵修语对 ## 语言覆盖情况 **图瓦卢语(TVL)** - 母语使用者:约11,000人 - 语言分类:低资源波利尼西亚语 - WOL平台语言区域代码:`lp-vl`(实际使用VL编码,而非TVL) **英语(EN)** - 英语文本源自JW.org的英文出版物 - WOL平台语言区域代码:`lp-e` ## 许可与署名要求 - **许可证**:CC-BY-4.0 - **来源机构**:宾夕法尼亚州守望台圣经与书刊协会(Watch Tower Bible and Tract Society of Pennsylvania) - **署名要求**:JW.org守望台图书馆在线平台(https://www.jw.org/) ## 伦理考量 - 内容源自宗教出版物 - 内容体现守望台的神学立场 - 适用于低资源自然语言处理研究 ## 引用格式 bibtex @dataset{tv2en_corpus, title={TV2EN: 图瓦卢语-英语平行语料库}, author={FriezaForce}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/FriezaForce/tv2en-cleaned} } ## 数据集统计信息 - **句子长度范围**:不定(单语侧通常为5-200词) - **对齐质量**:较高(经人工抽样验证) - **时间覆盖范围**:日常文本覆盖2017-2025年 - **出版物覆盖范围**:22种及以上出版物编码 ## 推荐应用场景 - 机器翻译(图瓦卢语↔英语) - 低资源自然语言处理研究 - 多语言模型适配 - 跨语言迁移学习
提供机构:
FriezaForce
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作