What hurts more, the pain of hard work or the pain of regret?

用 ollama 本地运行谷歌开源大模型 Gemma

2024-03-24LLM 29 20 0 Comments

原先在 23 年初的时候调研过一些国产的大模型，包括复旦开源的 MOSS 和清华的 ChatGLM，那时候还是早期版本，需要在 Linux 上，并且有比较好的显卡，而且一般来讲都得是 N 卡，过程中需要安装 pytorch和比较多依赖，并且当时的效果也还比较差，所以后面就没有长期使用。
最近看到谷歌在 2 月份开源了大模型 Gemma ，gemma 的博客在这里，想要在本地运行这个模型在现在这个阶段也变得简单很多，因为我们有了 ollama 工具

可以通过这个工具来运行大模型，并且已经支持了谷歌开源的 Gemma

我这边本地是 MacBook Pro 14 寸的，m3 pro 的处理器，18g 内存，刚好可以用 7b 量化的模型

这里有推荐的模型和内存推荐匹配规则，16g 可以运行 13B 及以下模型
下载安装完后我们可以用以下命令

ollama run gemma:7b

这里需要拉取模型，约5.2g 大小，考虑网络原因可能会比较慢

我们可以简单来试试问个问题

看出来回答的还是比较丰富的，谷歌出品还是比较有水平的，不至于像 ChatGLM 最初版本的在不做调优的情况下甚至有点前言不搭后语
对于想使用 chatgpt 但是没条件，这也算是个低配平替了, 并且已经是个比较可用的了，同时也方便进行学习调优等
如果想要类似于 chatgpt 那样的网页版，可以安装 open-webui
可以通过 webui 访问 ollama 运行的大模型，
用 docker 启动的命令也贴一下

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

不过有个小问题就是 docker 镜像拉取会有点慢，可以添加下国内镜像加速

{
    "registry-mirrors": [
        "https://dockerproxy.com",
        "https://docker.mirrors.ustc.edu.cn",
        "https://docker.nju.edu.cn"
    ]
}

这里有一个小区别，Gemma 在多轮会话的时候会在前面的答案基础上再完善。

补充一个在 windows 环境下，cpu 跑模型的也是可行的

现在是大模型可以深入千家万户了，大家都可以尝试下，如果对日常的工作学习有一些效率上的提升也是好的

请我一杯咖啡吧！

# LLM

Java 线程池系列-实战篇

用 ollama 本地运行谷歌开源大模型 Gemma

用 ollama 本地运行谷歌开源大模型 Gemma

Recommend

Apple could double down on China market, Wedbush says, as iPhone sales drop

UK restricts memes about crypto, other investments to combat scams

氪星晚报｜小林制药问题保健品生产时间集中在2023年4月至10月；华为：2023年收入达到7...

如何在Java中读取超过内存大小的文件 - 程序猿DD

[hep-ex/0005006] Neutrino Radiation Challenges and Proposed Solutions for Many-T...

AWS Lambda 的 cache 架構

能链智电2023年收入增长245%，毛利同增13倍

3年9000万欧，麦当劳开到了法甲赛场

又见千亿母基金，这次是上海

万科闯关寒冬

About Joyk