clips/mqa|自然语言处理数据集|多语言问答数据集
收藏数据集概述
名称: MQA - a Multilingual FAQ and CQA Dataset
语言: 包含39种语言,包括但不限于英语(en)、德语(de)、西班牙语(es)、法语(fr)、俄语(ru)、日语(ja)、中文(zh)等。
许可证: 数据集遵循CC0-1.0许可证。
多语言性: 支持多语言。
数据集大小: 数据集大小未明确,但包含约234M对问题和答案。
源数据: 数据集来源于Common Crawl的WARC文件。
任务类型: 主要用于问答任务,包括多选题问答(multiple-choice-qa)。
数据集结构
问题类型: 数据集分为两种类型:
- Frequently Asked Questions (FAQ): 通常只有一个答案。
- Community Question Answering (CQA): 可以有多个答案。
数据字段:
- name: 问题的标题(如果有)。
- text: 问题的正文(如果有)。
- answers: 答案列表,每个答案包含:
- text: 答案的文本。
- is_accepted: 布尔值,表示答案是否被接受。
下载和使用
下载方式: 可以通过指定语言和问题类型(FAQ或CQA)来下载数据集的子集。例如: python load_dataset("clips/mqa", language="en", scope="faq")
数据集层次: 数据集支持三种不同的嵌套级别:
- question: 默认级别,提供单个问题的详细信息。
- page: 提供同一页上的问题列表。
- domain: 提供同一域名下的页面列表。
语言分布
数据集在不同语言中的问题和答案分布如下:
Language | FAQ | CQA |
---|---|---|
en | 174,696,414 | 14,082,180 |
de | 17,796,992 | 1,094,606 |
es | 14,967,582 | 845,836 |
fr | 13,096,727 | 1,299,359 |
... | ... | ... |
此表格展示了每种语言在FAQ和CQA中的数据量。
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
熟肉制品在全国需求价格弹性分析数据
为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。
浙江省数据知识产权登记平台 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录