optimize perfermance of fused GEGLU #74

chengzeyi · 2023-12-12T09:12:03Z

During benchmarking SDXL model on A10, I found nearly 25% of the time is spent on computing fused GEGLU. Although the fused GEGLU kernel in stable-fast is already faster than unfused implementations, it might still have room to improve.

So I optimize the kernel ThreadBlockSize and implement a faster GELU function.

Before optimizing, on A10, speed is less than 4 it/s with 1024x1024. After optimizing, it is now 4.2 it/s.

python3 examples/optimize_stable_diffusion_pipeline.py --model stabilityai/stable-diffusion-xl-base-1.0 --height 1024 --width 1024 --seed 0

…UBLAS gemm

chengzeyi added 4 commits December 12, 2023 16:55

optimize perfermance of fused GEGLU

51de23f

fix CI build failure

5b1048e

fix precision loss for fused GEGLU and use CUTLASS_DEFAULT_MATH for C…

ef61f9a

…UBLAS gemm

add comment to cutlass_dual_linear_kernel.cu

3edfa1f

chengzeyi merged commit a3ff7b3 into main Dec 12, 2023
33 checks passed

chengzeyi deleted the dev branch December 12, 2023 12:12

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

optimize perfermance of fused GEGLU #74

optimize perfermance of fused GEGLU #74

chengzeyi commented Dec 12, 2023 •

edited

Loading

optimize perfermance of fused GEGLU #74

optimize perfermance of fused GEGLU #74

Conversation

chengzeyi commented Dec 12, 2023 • edited Loading

chengzeyi commented Dec 12, 2023 •

edited

Loading