#

post-training-quantization

Here are 40 public repositories matching this topic...

intel / neural-compressor

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated Nov 15, 2024
Python

666DZY666 / micronet

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、reg…

Updated Oct 6, 2021
Python

alibaba / TinyNeuralNetwork

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-neural-networks deep-learning pytorch pruning model-compression model-converter quantization-aware-training post-training-quantization

Updated Oct 24, 2024
Python

SqueezeAILab / SqueezeLLM

[ICML 2024] SqueezeLLM: Dense-and-Sparse Quantization

natural-language-processing text-generation transformer llama quantization model-compression efficient-inference post-training-quantization large-language-models llm small-models localllm

Updated Aug 13, 2024
Python

Xiuyu-Li / q-diffusion

[ICCV 2023] Q-Diffusion: Quantizing Diffusion Models.

pytorch quantization model-compression diffusion-models post-training-quantization ddim stable-diffusion

Updated Mar 21, 2024
Python

megvii-research / Sparsebit

A model compression and acceleration toolbox based on pytorch.

deep-learning sparse pruning quantization tensorrt quantization-aware-training post-training-quantization

Updated Jan 12, 2024
Python

ModelTC / llmc

[EMNLP 2024 Industry Track] This is the official PyTorch implementation of "LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit".

Updated Nov 15, 2024
Python

megvii-research / FQ-ViT

[IJCAI 2022] FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

pytorch imagenet quantization post-training-quantization vision-transformer

Updated Apr 11, 2023
Python

sayakpaul / Adventures-in-TensorFlow-Lite

This repository contains notebooks that show the usage of TensorFlow Lite for quantizing deep neural networks.

inference pruning tensorflow-lite tensorflow-2 on-device-ml tf-hub model-quantization model-optimization quantization-aware-training post-training-quantization tf-lite-model

Updated Jan 23, 2023
Jupyter Notebook

Hsu1023 / DuQuant

[NeurIPS 2024 Oral🔥] DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs.

quantization post-training-quantization large-language-models llm

Updated Oct 3, 2024
Python

hkproj / quantization-notes

Notes on quantization in neural networks

deep-learning pytorch neural-networks quantization quantization-aware-training post-training-quantization

Updated Dec 14, 2023
Jupyter Notebook

ModelTC / TFMQ-DM

[CVPR 2024 Highlight] This is the official PyTorch implementation of "TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models".

highlight quantization cvpr ldm diffusion-models post-training-quantization ddim stable-diffusion cvpr2024

Updated Aug 1, 2024
Jupyter Notebook

Sanjana7395 / static_quantization

Post-training static quantization using ResNet18 architecture

pytorch mnist-classification quantization resnet-18 post-training-quantization floatfunctional fbgemm float32-to-int8 reduce-inference-time reduce-memory-storage

Updated Aug 1, 2020
Jupyter Notebook

ModelTC / QLLM

[ICLR 2024] This is the official PyTorch implementation of "QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models"

transformers pytorch llama quantization post-training-quantization llm llama2

Updated Mar 11, 2024
Python

zysxmu / FDDA

Pytorch implementation of our paper accepted by ECCV 2022-- Fine-grained Data Distribution Alignment for Post-Training Quantization

acceleration compression post-training-quantization

Updated Sep 13, 2022
Python

KwangHoonAn / Quantizations

quantization dfq post-training-quantization data-free-quantization

Updated Apr 6, 2021
Python

iszry / DI2N-PTQ4DM

Improved the performance of 8-bit PTQ4DM expecially on FID.

diffusion-model post-training-quantization

Updated Aug 30, 2023
Python

GongCheng1919 / bias-compensation

[CAAI AIR'24] Minimize Quantization Output Error with Bias Compensation

post-training-quantization llm-compression output-error-optimization bias-compensation llm-quantization

Updated Jun 25, 2024
Python

motokimura / pytorch_quantization_fx

An example to quantize MobileNetV2 trained on CIFAR-10 dataset with PyTorch FX graph mode quantization

pytorch quantization cifar10 mobilenetv2 quantization-aware-training post-training-quantization pytorch-fx-graph-mode-quantization

Updated Oct 29, 2024
Python

Rumeysakeskin / ASR-Quantization

Post-training quantization on Nvidia Nemo ASR model

pytorch speech-recognition quantization model-deployment pytorch-lightning post-training-quantization nvidia-nemo

Updated Aug 23, 2023
Jupyter Notebook

Improve this page

Add a description, image, and links to the post-training-quantization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the post-training-quantization topic, visit your repo's landing page and select "manage topics."