five

RISEF/GeoGPT-QA-RU

收藏
Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/RISEF/GeoGPT-QA-RU
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ru - en license: cc-by-nc-4.0 task_categories: - question-answering - text-generation tags: - geology - geoscience - petroleum - oil-gas - russian - instruction-tuning - sft - geogpt - kazmunaygas pretty_name: GeoGPT-QA Russian (Geological QA Dataset) size_categories: - 10K<n<50K --- # GeoGPT-QA-RU — Геологический QA датасет на русском языке Русскоязычная версия датасета [GeoGPT-QA](https://huggingface.co/datasets/GeoGPT-Research-Project/GeoGPT-QA) для дообучения LLM в области геологии и нефтегазовой отрасли. ## Описание - **41,432** пар вопрос-ответ по геонаукам - **81.7%** переведены на русский язык, **18.3%** остались на английском (fallback) - Формат: chat messages (system/user/assistant) — готов для SFT - Перевод выполнен с помощью **Gemma-2-27B-IT** ## Формат данных JSONL, каждая строка: ```json { "messages": [ {"role": "system", "content": "Ты — эксперт-геолог нефтегазовой отрасли. Отвечай точно и профессионально на русском языке."}, {"role": "user", "content": "Какие ключевые факторы влияют на качество воздуха в Калимантане?"}, {"role": "assistant", "content": "Ключевые факторы включают доход на душу населения, плотность населения, лесные пожары и количество транспортных средств..."} ] } ``` ## Статистика | Метрика | Значение | |---------|----------| | Всего записей | 41,432 | | На русском | 33,864 (81.7%) | | На английском (fallback) | 7,568 (18.3%) | | Источник | Научные статьи с DOI | | Журналы | IOP Conference Series: Earth and Environmental Science и др. | ## Источники Этот датасет основан на: - **[GeoGPT-QA](https://huggingface.co/datasets/GeoGPT-Research-Project/GeoGPT-QA)** — оригинальный англоязычный датасет от GeoGPT Research Project (DDE + Zhejiang Lab) - **[GeoGPT-CoT-QA](https://huggingface.co/datasets/GeoGPT-Research-Project/GeoGPT-CoT-QA)** — версия с Chain-of-Thought рассуждениями - **[GeoGPT Training Data from Open-Access Papers](https://huggingface.co/datasets/GeoGPT-Research-Project/GeoGPT_Training_Data_from_Open-Access_Papers)** — метаданные 280K open-access геонаучных статей ### Связанные ресурсы | Ресурс | Описание | Ссылка | |--------|----------|--------| | GeoGPT-QA (EN) | Оригинальный датасет | [HuggingFace](https://huggingface.co/datasets/GeoGPT-Research-Project/GeoGPT-QA) | | GeoGPT-CoT-QA | QA с Chain-of-Thought | [HuggingFace](https://huggingface.co/datasets/GeoGPT-Research-Project/GeoGPT-CoT-QA) | | GeoRAG-QA | QA с контекстом для RAG | [HuggingFace](https://huggingface.co/datasets/GeoGPT-Research-Project/GeoRAG-QA) | | K2 GeoSignal | Instruction tuning для геонаук | [HuggingFace](https://huggingface.co/datasets/daven3/geosignal) | | GeoGPT CommonCrawl | 12.4M геонаучных документов | [HuggingFace](https://huggingface.co/datasets/GeoGPT-Research-Project/GeoGPT_Training_Data_from_Geoscience_Subset_of_CommonCrawl) | | Echo Oil&Gas LoRA | Нефтегазовый чат-датасет | [HuggingFace](https://huggingface.co/datasets/Bmcbob76/echo-oilgas-lora) | | Mineral Exploration QA | QA по минералогии с CoT | [HuggingFace](https://huggingface.co/datasets/AshkanTaghipour/mineral-exploration-geology-qa) | | Russian Oil&Gas News | Telegram посты (RU) | [HuggingFace](https://huggingface.co/datasets/ScoutieAutoML/russian_oil_gas_news_telegram_dataset) | | KazMMLU | Казахский бенчмарк | [HuggingFace](https://huggingface.co/datasets/MBZUAI/KazMMLU) | ## Использование ### Для SFT с TRL ```python from datasets import load_dataset from trl import SFTTrainer, SFTConfig dataset = load_dataset("RISEF/GeoGPT-QA-RU") trainer = SFTTrainer( model=model, train_dataset=dataset["train"], args=SFTConfig(max_length=2048, ...), ) trainer.train() ``` ### Для inference ```python from datasets import load_dataset dataset = load_dataset("RISEF/GeoGPT-QA-RU") for item in dataset["train"]: question = item["messages"][1]["content"] answer = item["messages"][2]["content"] print(f"Q: {question}\nA: {answer}\n") ``` ## Лицензия CC BY-NC 4.0 (как и оригинальный GeoGPT-QA) ## Цитирование Если вы используете этот датасет, пожалуйста, укажите оригинальный GeoGPT: ```bibtex @article{geogpt2024, title={GeoGPT: Understanding and Processing Geospatial Tasks through An Autonomous GPT}, author={GeoGPT Research Project}, year={2024} } ``` ## Контакт RISEF — Research Institute for Scientific and Engineering Fundamentals
提供机构:
RISEF
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作