Mac环境下的配置和环境准备 #251
-
在这里提出Mac环境下配置ChatGLM3-6B模型的任何问题,例如:
|
Beta Was this translation helpful? Give feedback.
Replies: 12 comments 36 replies
-
mac下模型推理ggml/gguf量化是王道,否则速度感人,chatglm.cpp项目直接走起。
|
Beta Was this translation helpful? Give feedback.
-
M1 pro 16GB内存 平均1分钟大概吐一个字的样子 |
Beta Was this translation helpful? Give feedback.
-
这个速度确实太慢了,我们查一下 |
Beta Was this translation helpful? Give feedback.
-
Apple M2 Pro + 32G 内存可正常运行 chatGLM3-6B,但是有一个严重的问题,就是内存占用只增不减,随着使用,由于内存不断的增加,导致推理速度逐渐变慢,直到撑爆物理内存,开始使用交换分区,这可如何是好(N 卡的就正常,显存是会释放的 |
Beta Was this translation helpful? Give feedback.
-
Apple Mac Pro M3 24G内存 使用官方的composite_demo推理巨慢,简单的'你好'需要花费近30分钟,内存利用率很高达到百分之九十多,而CUP和GPU的利用只有百分之十几到二十。从stream_chat的输出来看,卡在推理计算,每个token输出都显得很困难。 |
Beta Was this translation helpful? Give feedback.
-
M2 pro 芯片+32G内存 已经成功在GPU上跑成功,速度超级快,已经跟chatgpt3.5一样快了,不需要加速 torch 2.3.0.dev20231224 看到后面带dev的就可以下一步了 3、将/ChatGLM3/composite_demo/client.py 保存重新运行即可畅爽 |
Beta Was this translation helpful? Give feedback.
-
后续可能会有支持MLX的计划 |
Beta Was this translation helpful? Give feedback.
-
请问在Mac Studio M2 ultra上,可以用自己的dataset微调ChatGLM3吗,谢谢。 |
Beta Was this translation helpful? Give feedback.
-
【咨询】Mac 上通过运行python3 web_demo_streamlit.py 会把模型下载到哪里? 我按照README.MD的步骤顺序往下执行,但是没有注意到我的Mac RAM 是不足以运行 chatglm 的。 我做了一些尝试,但失败了: 尝试修改 “cli_demo.py”,使之在命令行输出 通过 Mac 自带的存储文件清理,似乎我可控的文件夹内并没有大文件(难道是被统计到了“系统数据”中?) 尝试搜索,包括“THUDM/chatglm3-6b”、‘safetensors’,同样未能找到大文件。 希望能够得到各位的指导和帮助,先谢谢啦。 |
Beta Was this translation helpful? Give feedback.
-
mac studio 192G mps后端上进行Lora 微调,内存占用持续上涨直到突破物理内存,之后速度变得很慢,对比换到mac cpu 和 N卡上显存占用和速度都是稳定的,请问是否有解决方法? |
Beta Was this translation helpful? Give feedback.
-
实测在 macbook m3pro 18g 上,关闭出了终端的其他软件后,直接运行可以达到和 chatgpt3.5 甚至快一点的速度。 使用 chatglm-cpp 量化 fp16 模型,会显著降低回复延迟。若使用 int4 量化模型,可以达到10token/s |
Beta Was this translation helpful? Give feedback.
-
【咨询】 |
Beta Was this translation helpful? Give feedback.
目前最好的方案还是使用类似glm-cpp等工具来推理int4版本的,fp16版本在m1上确实是非常非常卡