UnifiedCrawl|自然语言处理数据集|低资源语言数据集
收藏UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages
简介
UnifiedCrawl 是一个从 Common Crawl 中提取的低资源语言的单语数据集,旨在为低资源语言的大型语言模型(LLMs)提供经济实惠的适应性。
数据集构建步骤
- 下载单语数据集:从 Common Crawl 下载单语数据集。
- 数据去重:使用精确子字符串匹配方法对数据集进行去重。
- 模型基准测试与微调:对预训练的原始模型进行基准测试,并使用爬取的数据进行微调。
环境设置
- 安装 conda:使用 Miniconda 安装 conda。
- 创建 conda 环境并安装 CUDA:创建 Python 环境并安装 CUDA 工具包。
- 安装 Python 依赖项:安装所需的 Python 依赖项。
- 设置其他依赖项:安装用于下载 Common Crawl 数据的依赖项。
数据下载
- 按语言过滤 Common Crawl 索引:通过设置环境变量并运行脚本,按语言过滤 Common Crawl 索引。
- 下载并提取文本:从过滤后的 Common Crawl 索引中下载并提取文本。
数据去重
- 安装 Rust:安装 Rust 以构建去重工具。
- 构建去重工具二进制文件:构建用于去重的二进制文件。
- 运行数据去重:
- 合并爬取文件:将单个爬取文件合并为一个文件。
- 去重单个爬取:对单个爬取进行去重。
- 去重所有爬取:对所有爬取进行去重。
- 过滤短文档:去除长度小于 100 个字符的文档。
模型基准测试与微调
- 基准测试:对原始模型进行基准测试。
- 微调模型:使用爬取的数据对模型进行微调。
问题与联系
如有问题或疑问,可以通过电子邮件联系作者或在 GitHub 上提交问题。
引用
如需引用该数据集,请使用以下 BibTeX 格式: bibtex @article{tessema2024unifiedcrawl, author = {Bethel Melesse Tessema and Akhil Kedia and Tae-Sun Chung}, title = {UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages}, journal = {CoRR}, volume = {abs/2411.14343}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2411.14343}, doi = {10.48550/ARXIV.2411.14343}, eprinttype = {arXiv}, eprint = {2411.14343} }

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
中文高质量大模型多轮对话SFT数据集
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
OpenDataLab 收录