OceanGPT(沧渊)

用于海洋科学任务的大型语言模型。

OceanGPT 的潜力

To train OceanGPT(沧渊), we collected an ocean science corpus that spans multiple fields. Since each subfield and topic has its unique data characteristics and patterns, we proposed a domain-specific instruction generation framework called DoInstruct. We trained OceanGPT based on open-source models (such as Qwen, LLaMA, MiniCPM, etc.).

Disclaimer: This project is purely an academic exploration rather than a product. Please be aware that due to the inherent limitations of large language models, there may be issues such as hallucinations.

OceanGPT(沧渊)专为海洋领域而设计,可以处理各种海洋科学任务,包括海洋相关的问答和内容生成。此外,我们试图验证 OceanGPT 在模拟水下具身智能方面的潜力。该模型仍然存在幻觉等局限性,我们将继续维护 OceanGPT,旨在增强其在海洋研究和探索中的实际应用能力。

我们已经发布了 Oceangpt (2B, 7B, 14B)等,如下:

HuggingFace

ModelScope

WiseModel

模型

海洋覆盖了地球表面约 71% 的面积,在全球气候调节、天气模式、生物多样性和人类经济发展中发挥着至关重要的作用。海洋科学研究主要关注海洋的自然特性、变化规律以及与海洋资源开发利用相关的理论、方法和应用。因此,我们提出了一个专门针对海洋领域的大型语言模型 OceanGPT。它可以处理各种海洋科学任务,包括问答和内容生成。此外,我们尝试验证大型语言模型在模拟水下机器人操作方面的潜力,进一步探索 LLM 驱动的水下具身智能的实现。

数据质量对于训练领域大语言模型至关重要。为了训练 OceanGPT,我们收集了涵盖多个领域的海洋科学语料。每个子领域和主题都有其独特的数据特征和模式,这促使我们提出了一个领域特定的指令生成框架 DoInstruct。该框架利用多智能体协作生成海洋科学指令的微调训练数据。这种方式既保证了数据的专业性和准确性,又实现了高效的并行数据生成性能。DoInstruct 框架使用智能体(如 GPT-3.5-turbo)作为每个海洋主题的专家,各个智能体通过相互协作快速扩展指令。该框架定义了三个智能体:

进化数据合成代理: 具体来说,代理采用两种协作策略:一是补充和扩展种子样本的背景知识,二是细化分析以增强和完善种子数据所蕴含的知识。
微调文献阅读代理: 先对大型语言模型进行微调,开发专门用于文献抽取的智能模型,使代理能够从浩如烟海的海洋文献中提取出高质量的句子。
质量保证审核代理: 预定义与海洋科学相关的特定句法和语义规则,通过提示过滤数据来构建该代理。
我们基于开源模型(如 Qwen、LLaMA、MiniCPM 等)和 DoInstruct 框架生成的指令训练了 OceanGPT。

基准

我们发布了指令数据集 OceanInstruct  并为海洋领域大型语言模型构建了基准数据集 OceanBench 实验结果表明,OceanGPT 在绝大多数任务中的表现都优于基线语言模型。相比之下,现有的开源大型语言模型在需要海洋科学专业知识的任务上表现不佳。此外,我们设计的多智能体数据生成框架有效地使 OceanGPT 能够充当海洋领域各个子领域的专家。这表明 OceanGPT 是跨不同海洋领域的相对优越的专家模型。

模拟水下具身智能

我们评估了 OceanGPT 在模拟器中控制水下机器人的初步能力,包括轨迹规划等任务。

演示

申请试用


负责人

Prof. Huajun Chen

浙江大学计算机学院教授

共同负责人

Ningyu Zhang

副教授
浙江大学软件学院

Guozhou Zheng

副教授
浙江大学舟山海洋研究中心

Zhen Bi

PhD Student

Yida Xue

PhD Student

Chenxi Wang

MSc Student

Xiaozhuan Liang

MSc Student

Kangwei Liu

MSc Student

Jizhan Fang

MSc Student

Jintian Zhang

MSc Student

Zekun Xi

MSc Student

Hongjie Deng

AI Engineer

Chuankun LI

AI Engineer

Zhenghao Zhu

AI Engineer

Kun Gan

AI Engineer

Visitors' number:5058

Copyright ©2024 ZJUKG All Rights Reserved.