Guide de l’utilisateur# moteur d’inférence llama.cpp transformers vLLM SGLang MLX API client LLM Embedding Image Audio Rerank Système OAuth2 (expérimental) Autorisation Commencez à utiliser Utilisation Code d’état HTTP Attention Guide de chargement des modèles copie Stratégie de répartition mixte Définir la variable d’environnement Espace virtuel du modèle de configuration Traitement par lots / traitement par lots continu Mode de pensée Metrics Supervisor Metrics Worker Metrics Inférence distribuée Moteurs pris en charge Utiliser Traitement par lots continu Méthode d’utilisation Interrompre la demande Avertissements Xavier: Partage du cache KV entre plusieurs répliques VLLM Utilisation Limitation