five

octai

收藏
魔搭社区2024-09-03 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/aicxoct/octai
下载链接
链接失效反馈
官方服务:
资源简介:
license: Apache License 2.0 #用户自定义标签 tags: - Alibaba - arxiv:1810.99999 - my free-style tag text: #二级只能属于一个task_categories fill_mask: #三级可以多选 languages: - en multilinguality: - monolingual audio: automatic_speech_recognition: languages: - en - fr sampling_rates: - 16000 <!--- integer ---> - 64000 image: Image-to-Text: resolutions: - 640 x 480 - 1024 x 720 color_space: - rgb encoding: - jpeg video: Object-Detection: resolutions: - 640 x 480 - 1024 x 720 encoding: - mpeg multi_modal: Feature Extraction: resolutions: - 640 x 480 encoding: - H264 languages: - en multilinguality: - monolingual --- <!--- 以上YAML section提供属性/tags描述---> <!--- 以下为markdown格式的dataset描述---> ## 数据集描述 数据集整体描述。 ### 数据集简介 提供对于数据集的介绍,支持的使用场景(包括支持的语言等)。 ### 数据集支持的任务 该数据集支持的训练任务,以及相关benchmark结果。 ## 数据集的格式和结构 ### 数据格式 对数据的格式进行描述,包括数据的schema,以及提供必要的数据样本示范。 如果数据集内含多个子数据集的话,每个字数据集都应该提供相对应的数据格式描述。 ### 数据集加载方式 通过代码范例等方式,提供数据集通过MaaS/Dataset SDK进行加载和使用的详细说明。 ### 数据分片 数据集是否进行了预分片(例如是否有预设的train/test/validation的数据分片)。 如果有,数据的分片时如何实现的。 如果没有预先分片,是否对于数据使用过程中的分片有什么推荐(比例等)。 ## 数据集生成的相关信息 ### 原始数据 描述原始数据的来源以及数据的初步收集是如何进行的,是否经过归一化等处理流程。 ### 数据集标注 该数据集是否包含标注,若有的话,相关信息描述。 #### 标注过程 标注是通过什么方式实现的,流程如何。 #### 标注者 标注者相关信息,尤其是当标着和原始数据提供者有所区别时。 ## 数据集版权信息 数据集相关的版权信息,授权使用的场景和用户。是否开源,以及采用哪个开源协议等等。 ## 引用方式 数据集是否有相关联的文章,以及如果在研究论文中要引用该数据集是否有推荐的引用格式等等。 ## 其他相关信息 该数据集可能包含的个人和敏感信息,使用数据集需要考虑的相关背景; 数据集可能包含的社会意义以及其中可能包含的bias信息和可能的局限性等等。

license: Apache License 2.0 # User-defined tags tags: - Alibaba - arxiv:1810.99999 - my free-style tag text: # Level 2 can only belong to one task_categories fill_mask: # Level 3 allows multiple selections languages: - en multilinguality: - monolingual audio: automatic_speech_recognition: languages: - en - fr sampling_rates: - 16000 <!--- integer ---> - 64000 image: Image-to-Text: resolutions: - 640 x 480 - 1024 x 720 color_space: - rgb encoding: - jpeg video: Object-Detection: resolutions: - 640 x 480 - 1024 x 720 encoding: - mpeg multi_modal: Feature Extraction: resolutions: - 640 x 480 encoding: - H264 languages: - en multilinguality: - monolingual --- <!--- The above YAML section provides attribute/tags description ---> <!--- The following is the dataset description in markdown format ---> ## Dataset Description Overall description of the dataset. ### Dataset Overview Provides an introduction to the dataset, including supported usage scenarios (e.g., supported languages). ### Supported Tasks Supports training tasks and relevant benchmark results. ## Dataset Format and Structure ### Data Format Describes the data format, including the data schema and provides necessary sample data demonstrations. If the dataset contains multiple sub-datasets, corresponding data format descriptions should be provided for each sub-dataset. ### Dataset Loading Method Provides detailed instructions on loading and using the dataset via MaaS/Dataset SDK with code examples and other means. ### Data Splitting Whether the dataset has been pre-split (e.g., whether there are preset train/test/validation data splits). If yes, how the data splitting is implemented. If not, are there any recommendations for splitting during dataset usage (e.g., ratio)? ## Dataset Generation-related Information ### Raw Data Describes the source of the raw data, how the initial data collection was conducted, and whether normalization and other processing procedures have been applied. ### Dataset Annotation Whether the dataset contains annotations; if so, describe relevant information. #### Annotation Process How the annotations are implemented and the detailed workflow. #### Annotators Relevant information about annotators, especially when the annotators are different from the original data providers. ## Dataset Copyright Information Relevant copyright information of the dataset, authorized usage scenarios and users. Whether it is open source and which open source license is adopted, etc. ## Citation Method Whether the dataset has associated articles, and if so, whether there is a recommended citation format for citing the dataset in research papers, etc. ## Other Relevant Information Personal and sensitive information that may be contained in the dataset, and relevant background that needs to be considered when using the dataset; social significance that the dataset may contain, as well as possible bias information and limitations, etc.
提供机构:
maas
创建时间:
2024-03-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作