Modèle#
Liste des modèles#
Voici la liste des modèles d’un type spécifique pouvant être démarrés dans Xinference :
xinference registrations --model-type <MODEL_TYPE> \
[--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \
curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/model_registrations/<MODEL_TYPE>
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_model_registrations(model_type='<MODEL_TYPE>'))
Xinference supporte les MODEL_TYPE suivants :
Modèle de génération de texte ou modèle de langage large
Modèle d’incorporation de texte
Modèle de génération ou de traitement d’images
Modèle audio
Modèle de réordonnancement
Modèle vidéo
Modèle flexible (modèle d’apprentissage automatique traditionnel)
Vous pouvez consulter tous les modèles intégrés pris en charge par Xinference ici. Si le modèle dont vous avez besoin n’est pas disponible, Xinference vous permet également d’enregistrer vos propres modèles personnalisés.
Démarrer et arrêter le modèle#
Chaque instance de modèle en cours d’exécution se verra attribuer un uid de modèle unique. Par défaut, l’uid du modèle est égal au nom du modèle. Cet ID est le descripteur permettant d’utiliser ultérieurement l’instance du modèle. L’option --model-uid de la commande de démarrage permet de le spécifier manuellement.
Vous pouvez lancer un modèle via la ligne de commande ou le client Python de Xinference.
xinference launch --model-name <MODEL_NAME> \
[--model-engine <MODEL_ENGINE>] \
[--model-type <MODEL_TYPE>] \
[--model-uid <MODEL_UID>] \
[--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
model_uid = client.launch_model(
model_name="<MODEL_NAME>",
model_engine="<MODEL_ENGINE>",
model_type="<MODEL_TYPE>"
model_uid="<MODEL_UID>"
)
print(model_uid)
Pour le type de modèle LLM, le lancement du modèle nécessite non seulement de spécifier le nom du modèle, mais aussi la taille des paramètres, le format du modèle et le moteur du modèle. Veuillez vous référer à la documentation Grand modèle de langage.
La commande suivante permet de lister les modèles en cours d’exécution dans Xinference :
xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]
curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_models())
Lorsque vous n’avez plus besoin du modèle actuellement en cours d’exécution, libérez les ressources qu’il occupe de la manière suivante :
xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]
curl -X DELETE http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models/<MODEL_UID>
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
client.terminate_model(model_uid="<MODEL_UID>")
Note
Pour les modèles qui ne sont plus maintenus et qui dépendent d’anciennes bibliothèques (comme transformers), il est recommandé d’activer la fonctionnalité d’espace virtuel de modèle afin de garantir leur fonctionnement normal dans un environnement compatible.
Modèle d’utilisation#
Apprenez à discuter avec un LLM dans Xinference.
Apprenez à connecter un LLM à des outils externes.
Apprenez à créer des embeddings de texte dans Xinference.
Apprenez à utiliser le modèle de reclassement dans Xinference.
Apprenez à utiliser Xinference pour générer des images.
Apprenez à utiliser LLM pour traiter les images et l’audio.
Apprenez à utiliser Xinference pour convertir l’audio en texte ou le texte en audio.
Apprenez à utiliser Xinference pour générer des vidéos.
Apprenez à utiliser Xinference pour inférer des modèles d’apprentissage automatique traditionnels.
- Xinference Models Hub
- Capacité du modèle
- Modèle intégré
- Modèle personnalisé
- Modèle mis à jour
- Source du modèle
- Environnement virtuel du modèle
- Contexte
- Solution
- Gestion des environnements virtuels (v2.0)
- Emplacement de stockage
- Ignorer les bibliothèques déjà installées
- Chargement du modèle : activer l’environnement virtuel et personnaliser les dépendances
- Gestion des environnements virtuels
- Fonctionnalités principales
- Opérations de gestion
- Format JSON de ModelHub (applicable aux modèles Xinference)
- Intégration LoRA
- Calcul de l’utilisation de la mémoire du modèle