Calcul de l’utilisation de la mémoire du modèle#

Pour mieux planifier l’utilisation de la mémoire vidéo, Xinference fournit un outil permettant de calculer l’utilisation de la mémoire vidéo des modèles : cal-model-mem

L’algorithme provient de : RahulSChand/gpu_poor

model_mem, kv_cache, overhead, active_mem

Exemple : pour calculer l’utilisation de la mémoire GPU du modèle qwen1.5-chat, vous pouvez exécuter la commande d’exemple suivante :

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

model_name: qwen1.5-chat
kv_cache_dtype: 16
model size: 7.0 B
quant: Int4
context: 16384
gpu mem usage:
  model mem: 4139 MB
  kv_cache: 8192 MB
  overhead: 650 MB
  active: 17024 MB
  total: 30005 MB (30 GB)

Grammaire#

–size-in-billions {model_size}
- -s {model_size}
Définir la taille du modèle. Spécifiez la taille du modèle en milliards de paramètres. Le format du paramètre accepte des formes telles que 1_8 et 1.8. Par exemple, 7 représente une taille de modèle de 7,0B.
–quantization {precision}
- -q {precision} (optionnel)
Spécifier la configuration de quantification du modèle. Par exemple : le paramètre Int4 indique l’utilisation de la quantification INT4.
–model-name {model_name}
- -n {model_name} (optionnel)
Spécifiez le nom du modèle. Si ce paramètre est fourni, la configuration du modèle sera récupérée depuis huggingface/modelscope ; s’il n’est pas spécifié, les paramètres de couche par défaut seront utilisés pour une estimation approximative.
–context-length {context_length}
- -c {context_length}
Spécifie la longueur maximale du contexte du modèle.
–model-format {format}
- -f {format}
Spécifiez le format du modèle, par exemple : pytorch, ggmlv3, etc.

Note

Utilisez la variable d’environnement HF_ENDPOINT pour définir le endpoint du serveur HuggingFace. Par exemple, si le réseau est lent, vous pouvez choisir hf-mirror comme endpoint. Pour plus d’informations, veuillez consulter ce document.