Indic-LLM-Labs/C4-Kn
收藏数据集概述
数据特征
- text: 数据类型为字符串。
- timestamp: 数据类型为时间戳(秒)。
- url: 数据类型为字符串。
数据分割
- train: 包含1056849个样本,总字节数为7772502793。
- validation: 包含1039个样本,总字节数为7579027。
数据大小
- 下载大小: 3033462453字节。
- 数据集大小: 7780081820字节。
配置
- default:
- train: 路径为
data/train-*。 - validation: 路径为
data/validation-*。
- train: 路径为
数据样本
python {text: ಹಳ್ಳಿಯ ‘ಬೋಲ್ಟ್u200c’ಗಳನ್ನು ಗುರುತಿಸಿ | Prajavani ಪ್ರಜಾವಾಣಿ ವಾರ್ತೆ Updated: 18 ಫೆಬ್ರವರಿ 2020, 01:30 IST ಉಡುಪಿಯ ಐಕಳದಲ್ಲಿ ಇತ್ತೀಚೆಗೆ ನಡೆದ ಕಂಬಳದ ಓಟದಲ್ಲಿ ಶ್ರೀನಿವಾಸ ಗೌಡ ಎಂಬುವರು ವಿಶ್ವದ ವೇಗದ ಓಟಗಾರ ಉಸೇನ್ ಬೋಲ್ಟ್ ಅವರಿಗಿಂತಲೂ ವೇಗವಾಗಿ ಓಡಿ ಗುರಿ ತಲುಪಿದ್ದು, ಸಾರ್ವಜನಿಕರ ಮೆಚ್ಚುಗೆಗೆ ಪಾತ್ರರಾಗಿದ್ದಾರೆ. ಗ್ರಾಮೀಣ ಪ್ರದೇಶ ಗಳಲ್ಲಿ ಇರುವ ಇಂತಹ ಓಟಗಾರರು ಮತ್ತು ಆಟಗಾರರು ಎಲೆಮರೆಯ ಕಾಯಿಯಂತೆ ತಮ್ಮ ಪಾಡಿಗೆ ತಾವು ಬೆಳೆಯುತ್ತಿರುತ್ತಾರೆ. ಶಾಲಾ- ಕಾಲೇಜುಗಳಲ್ಲಿ ಓದುತ್ತಿರುವವರಿಗೆ ಮುಂದೆ ಬರಲು ಸ್ವಲ್ಪಮಟ್ಟಿಗಾದರೂ ಅವಕಾಶ ಇರುತ್ತದೆ. ಅವಿದ್ಯಾವಂತರಿಗೆ ಅದೂ ಇಲ್ಲ. ಇನ್ನು ಕ್ರೀಡಾಕೂಟಗಳಿಗೆ......., timestamp: datetime.datetime(2020, 4, 1, 16, 50, 10), url: https://www.prajavani.net/op-ed/readers-letter/need-more-publicity-to-kambala-sports-706114.html}
使用方法
python from datasets import load_dataset
ds = load_dataset("Indic-LLM-Labs/C4-Kn")



