Calcul de l’utilisation de la mémoire du modèle#

Pour mieux planifier l’utilisation de la mémoire vidéo, Xinference fournit un outil permettant de calculer l’utilisation de la mémoire vidéo des modèles : cal-model-mem

L’algorithme provient de : RahulSChand/gpu_poor

model_mem, kv_cache, overhead, active_mem

Exemple : pour calculer l’utilisation de la mémoire GPU du modèle qwen1.5-chat, vous pouvez exécuter la commande d’exemple suivante :

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

Grammaire#

  • –size-in-billions {model_size}

    • -s {model_size}

    Définir la taille du modèle. Spécifiez la taille du modèle en milliards de paramètres. Le format du paramètre accepte des formes telles que 1_8 et 1.8. Par exemple, 7 représente une taille de modèle de 7,0B.

  • –quantization {precision}

    • -q {precision} (optionnel)

    Spécifier la configuration de quantification du modèle. Par exemple : le paramètre Int4 indique l’utilisation de la quantification INT4.

  • –model-name {model_name}

    • -n {model_name} (optionnel)

    Spécifiez le nom du modèle. Si ce paramètre est fourni, la configuration du modèle sera récupérée depuis huggingface/modelscope ; s’il n’est pas spécifié, les paramètres de couche par défaut seront utilisés pour une estimation approximative.

  • –context-length {context_length}

    • -c {context_length}

    Spécifie la longueur maximale du contexte du modèle.

  • –model-format {format}

    • -f {format}

    Spécifiez le format du modèle, par exemple : pytorch, ggmlv3, etc.

Note

Utilisez la variable d’environnement HF_ENDPOINT pour définir le endpoint du serveur HuggingFace. Par exemple, si le réseau est lent, vous pouvez choisir hf-mirror comme endpoint. Pour plus d’informations, veuillez consulter ce document.