miracl/miracl-corpus|多语言处理数据集|信息检索数据集
收藏数据集卡片 for MIRACL Corpus
数据集描述
MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言共同覆盖了全球超过30亿母语使用者。
该数据集包含16种“已知语言”的收集数据。其余2种“惊喜语言”将在稍后发布。
每个语言的语料库是从维基百科转储中准备的,我们只保留纯文本并丢弃图像、表格等。每个文章使用WikiExtractor根据自然论述单元(例如,`
`在维基标记中)分割成多个段落。每个段落构成一个“文档”或检索单元。我们保留每个段落的维基百科文章标题。
数据集结构
每个检索单元包含三个字段:docid
、title
和text
。以下是一个来自英语语料库的示例:
json { "docid": "39#0", "title": "Albedo", "text": "Albedo (meaning whiteness) is the measure of the diffuse reflection of solar radiation out of the total solar radiation received by an astronomical body (e.g. a planet like Earth). It is dimensionless and measured on a scale from 0 (corresponding to a black body that absorbs all incident radiation) to 1 (corresponding to a body that reflects all incident radiation)." }
docid
的格式为X#Y
,其中所有具有相同X
的段落来自同一篇维基百科文章,而Y
表示该文章中的段落,按顺序编号。text
字段包含段落的文本,title
字段包含段落来源的文章名称。
可以使用以下代码加载集合:
python lang=ar # 或任何16种语言之一 miracl_corpus = datasets.load_dataset(miracl/miracl-corpus, lang)[train] for doc in miracl_corpus: docid = doc[docid] title = doc[title] text = doc[text]
数据集统计和链接
下表包含每个语言集合中的段落数量和维基百科文章数量,以及数据集和原始维基百科转储的链接。
语言 | 段落数量 | 文章数量 | 数据集链接 | 原始维基转储 |
---|---|---|---|---|
阿拉伯语 (ar) | 2,061,414 | 656,982 | 🤗 | 🌏 |
孟加拉语 (bn) | 297,265 | 63,762 | 🤗 | 🌏 |
英语 (en) | 32,893,221 | 5,758,285 | 🤗 | 🌏 |
西班牙语 (es) | 10,373,953 | 1,669,181 | 🤗 | 🌏 |
波斯语 (fa) | 2,207,172 | 857,827 | 🤗 | 🌏 |
芬兰语 (fi) | 1,883,509 | 447,815 | 🤗 | 🌏 |
法语 (fr) | 14,636,953 | 2,325,608 | 🤗 | 🌏 |
印地语 (hi) | 506,264 | 148,107 | 🤗 | 🌏 |
印度尼西亚语 (id) | 1,446,315 | 446,330 | 🤗 | 🌏 |
日语 (ja) | 6,953,614 | 1,133,444 | 🤗 | 🌏 |
韩语 (ko) | 1,486,752 | 437,373 | 🤗 | 🌏 |
俄语 (ru) | 9,543,918 | 1,476,045 | 🤗 | 🌏 |
斯瓦希里语 (sw) | 131,924 | 47,793 | 🤗 | 🌏 |
泰卢固语 (te) | 518,079 | 66,353 | 🤗 | 🌏 |
泰语 (th) | 542,166 | 128,179 | 🤗 | 🌏 |
中文 (zh) | 4,934,368 | 1,246,389 | 🤗 | 🌏 |

Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
BBGRE
The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.
国家生物信息中心 收录
中文高质量大模型多轮对话SFT数据集
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
OpenDataLab 收录