推理速度有点慢，有什么好方法加速吗 #1373

我目前用4090跑FP16其实速度并不慢,给一个bench dp:
我的prompt是76 token (242 characters)的一个数学问题
在我的机器上ChatGLM-6B花了20s输出的结果是578 token (2214 characters)
有ChatGPT plus会员的情况下,同样的prompt,用Legacy (GPT3.5)花了19s,输出结果是480 token (2038 characters)

对于6B参数的LLM, 1080显存太小了 @dogvane

0 replies

rjk-git · 2023-03-16T03:44:12Z

rjk-git
Mar 16, 2023

所以其实影响观感速度的原因是因为chatgpt流式输出...

0 replies

yaleimeng · 2023-03-16T05:48:10Z

yaleimeng
Mar 16, 2023

业内人士不会以为单张卡跑6B大模型就能0.1秒出几百字结果吧？
chatGPT部署在微软azure云上，数不清的GPU服务器集群，还有大型超算支持。

0 replies

SCAUapc · 2023-03-21T08:14:19Z

SCAUapc
Mar 21, 2023

我看设置里vocab的词表有15W，这很大。我曾经有个大规模分类的项目里用BERT，但鉴于最后一层输出的类别（几千）很多，发现最后的计算每个类别的概率还有softmax这一步很耗时和计算量。我觉得如果仅在中文场景的话可以基于BERT之类的词表做词表压缩，并且把第一层的token embedding layer进行重新改写（把不要的token embedding去掉，相应词表也要做改变）这应该能减少一些耗时

0 replies

SCAUapc · 2023-03-22T07:06:02Z

SCAUapc
Mar 22, 2023

我看设置里vocab的词表有15W，这很大。我曾经有个大规模分类的项目里用BERT，但鉴于最后一层输出的类别（几千）很多，发现最后的计算每个类别的概率还有softmax这一步很耗时和计算量。我觉得如果仅在中文场景的话可以基于BERT之类的词表做词表压缩，并且把第一层的token embedding layer进行重新改写（把不要的token embedding去掉，相应词表也要做改变）这应该能减少一些耗时

好吧今天看了下，底层不是像以前BERT GPT之类的分字，而是实打实的分词了，那就没办法了

0 replies

taozhijiang · 2023-03-22T16:09:13Z

taozhijiang
Mar 22, 2023

我用的CPU推理的，macOS的intel U
看推理的时候，CPU的利用率并不高，只有一个python进程的利用率是100%，其他核都在围观。
是不是没有并行计算啊？？？

0 replies

gitprwang · 2023-03-28T01:41:35Z

gitprwang
Mar 28, 2023

我用的CPU推理的，macOS的intel U 看推理的时候，CPU的利用率并不高，只有一个python进程的利用率是100%，其他核都在围观。是不是没有并行计算啊？？？

好奇intel U的mac多久能跑一个样本

0 replies

dakele895 · 2023-04-09T06:30:42Z

dakele895
Apr 9, 2023

苹果m1一个你好就这么慢

0 replies

Hkaisense · 2023-05-14T09:58:47Z

Hkaisense
May 14, 2023

多堆几张显卡能更快吗？确实快这件事情非常关键

0 replies

vanewu · 2023-06-02T09:36:57Z

vanewu
Jun 2, 2023

Hi, All. 速度和吞吐量上有需求，可以尝试： https://huggingface.co/TMElyralab/lyraChatGLM 。这个是对 ChatGLM6B 的加速版本，已封装 Python 上层调用，兼容 A100, V100, A10, A30 等显卡。

0 replies

liao0028 · 2023-06-04T02:48:07Z

liao0028
Jun 4, 2023

慢是可以理解的，但为什么int4反而比fp16慢，还慢得很明显？

解决了吗? 我也发现了这个问题，量化的比float16慢

没解决，官方似乎不重视这个问题。我只能通过加大推理batchsize变相提速。。

想问一下，如何加大推理batchsize

0 replies

geolvr · 2023-06-05T02:01:52Z

geolvr
Jun 5, 2023

Hi, All. 速度和吞吐量上有需求，可以尝试： https://huggingface.co/TMElyralab/lyraChatGLM 。这个是对 ChatGLM6B 的加速版本，已封装 Python 上层调用，兼容 A100, V100, A10, A30 等显卡。

这个好像只能用原版，不支持加载自己微调后的模型

0 replies

liao0028 · 2023-06-05T07:56:36Z

liao0028
Jun 5, 2023

Hi, All. 速度和吞吐量上有需求，可以尝试： https://huggingface.co/TMElyralab/lyraChatGLM 。这个是对 ChatGLM6B 的加速版本，已封装 Python 上层调用，兼容 A100, V100, A10, A30 等显卡。

这个好像只能用原版，不支持加载自己微调后的模型

对，且只支持N卡，我想在A卡上部署，您能否提供您增大推理时batch_size的源码和方法，谢谢。

0 replies

Vange95 · 2023-06-09T10:37:00Z

Vange95
Jun 9, 2023

同问

0 replies

Lukangkang123 · 2023-06-15T11:35:43Z

Lukangkang123
Jun 15, 2023

Hi, All. 速度和吞吐量上有需求，可以尝试： https://huggingface.co/TMElyralab/lyraChatGLM 。这个是对 ChatGLM6B 的加速版本，已封装 Python 上层调用，兼容 A100, V100, A10, A30 等显卡。

这个好像只能用原版，不支持加载自己微调后的模型

对，且只支持N卡，我想在A卡上部署，您能否提供您增大推理时batch_size的源码和方法，谢谢。

可以看一下我提的这个pull request，使用了batch推理，支持高并发。亲测一千条数据只需要30秒就能返回响应。#1244

0 replies

HL0718 · 2023-06-15T12:52:54Z

HL0718
Jun 15, 2023

Hi, All. 速度和吞吐量上有需求，可以尝试： https://huggingface.co/TMElyralab/lyraChatGLM 。这个是对 ChatGLM6B 的加速版本，已封装 Python 上层调用，兼容 A100, V100, A10, A30 等显卡。

这个好像只能用原版，不支持加载自己微调后的模型

对，且只支持N卡，我想在A卡上部署，您能否提供您增大推理时batch_size的源码和方法，谢谢。

可以看一下我提的这个pull request，使用了batch推理，支持高并发。亲测一千条数据只需要30秒就能返回响应。#1244

请问一下，您这个每个batch的大小是多少，以及需要的显存大概是多少？

0 replies

Lukangkang123 · 2023-06-15T12:56:27Z

Lukangkang123
Jun 15, 2023

Hi, All. 速度和吞吐量上有需求，可以尝试： https://huggingface.co/TMElyralab/lyraChatGLM 。这个是对 ChatGLM6B 的加速版本，已封装 Python 上层调用，兼容 A100, V100, A10, A30 等显卡。

这个好像只能用原版，不支持加载自己微调后的模型

对，且只支持N卡，我想在A卡上部署，您能否提供您增大推理时batch_size的源码和方法，谢谢。

可以看一下我提的这个pull request，使用了batch推理，支持高并发。亲测一千条数据只需要30秒就能返回响应。#1244

请问一下，您这个每个batch的大小是多少，以及需要的显存大概是多少？

我提的这个pull request里默认设的是100，我测的是占40G显存左右，你可以根据自己的数据和显卡调整。

0 replies

liukaiyueyuo · 2023-06-26T05:16:06Z

liukaiyueyuo
Jun 26, 2023

请问一下各路大神，我的4090显卡跑chatglm-6b，为啥GPU利用率一直只有20%？？？怎么提升一下GPU利用率呢？

0 replies

songkea · 2023-06-26T10:28:58Z

songkea
Jun 26, 2023

4090显卡推理时只占用30%，cpu单核100%，还有63个核在围观... 服了... 不知道如何提速

0 replies

duzx16 · 2023-06-26T11:11:27Z

duzx16
Jun 26, 2023
Maintainer

我们发布了新的 ChatGLM2-6B，推理速度有大幅提升，可以尝试一下

0 replies

songkea · 2023-06-26T11:20:30Z

songkea
Jun 26, 2023

已经尝试过了有提升但是gpu仍然只占用30% 我希望他能100%运行

0 replies

Hunter1943 · 2023-07-18T14:46:32Z

Hunter1943
Jul 18, 2023

已经尝试过了有提升但是gpu仍然只占用30% 我希望他能100%运行

貌似不太可能，这模型耗时似乎主要在访存而非计算，也没什么办法去做并行操作

0 replies

2768027860 · 2023-12-08T09:03:05Z

2768027860
Dec 8, 2023

选你想加载的精度，然后看显卡在你选的精度上的浮点数的表现怎么样

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

推理速度有点慢，有什么好方法加速吗 #1373

{{title}}

Replies: 38 comments 1 reply

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

推理速度有点慢，有什么好方法加速吗 #1373

Replies: 38 comments · 1 reply

duzx16 Jun 26, 2023 Maintainer

Replies: 38 comments 1 reply

duzx16
Jun 26, 2023
Maintainer