Variables d’environnement#

XINFERENCE_ENDPOINT#

Adresse de service de Xinference, utilisée pour se connecter à Xinference. L’adresse par défaut est http://127.0.0.1:9997, vous pouvez obtenir cette adresse dans les logs.

XINFERENCE_MODEL_SRC#

Configurez le référentiel de téléchargement des modèles. La source de téléchargement par défaut est « huggingface », mais elle peut également être définie sur « modelscope ».

XINFERENCE_HOME#

Xinference utilise par défaut <HOME>/.xinference comme répertoire par défaut pour stocker les modèles ainsi que les fichiers nécessaires tels que les journaux. <HOME> est le répertoire personnel de l’utilisateur actuel. Il est possible de modifier ce répertoire par défaut en configurant cette variable d’environnement.

XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD#

Nombre maximal d’échecs de vérification de santé autorisés lors du démarrage de Xinference. La valeur par défaut est 5.

XINFERENCE_HEALTH_CHECK_INTERVAL#

Intervalle de vérification de l’état de santé lors du démarrage de Xinference (en secondes). La valeur par défaut est 5.

XINFERENCE_HEALTH_CHECK_TIMEOUT#

Délai d’expiration de la vérification de santé lors du démarrage de Xinference (en secondes). La valeur par défaut est 10.

XINFERENCE_DISABLE_HEALTH_CHECK#

Lorsque les conditions sont remplies, Xinference signale automatiquement l’état de santé du worker. Définir cette variable d’environnement à 1 peut désactiver la vérification de santé.

XINFERENCE_DISABLE_METRICS#

Xinference active par défaut l’exportateur de métriques sur le superviseur et le worker. Définir la variable d’environnement sur 1 permet de désactiver le point de terminaison /metrics sur le superviseur et de désactiver le service HTTP sur le worker (ne fournissant que le point de terminaison /metrics).

XINFERENCE_DOWNLOAD_MAX_ATTEMPTS#

Nombre maximal de tentatives de téléchargement pour un fichier de modèle. La valeur par défaut est 3.

XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE#

Activez le traitement par lots continu pour le modèle texte-image en spécifiant la taille de l’image cible (par exemple 1024*1024). Non défini par défaut.

XINFERENCE_SSE_PING_ATTEMPTS_SECONDS#

Intervalle de ping (en secondes) pour maintenir la connexion en vie des événements envoyés par le serveur. Valeur par défaut : 600.

XINFERENCE_MAX_TOKENS#

Limite globale maximale de jetons pour les requêtes, avec remplacement. Par défaut, non défini.

XINFERENCE_ALLOWED_IPS#

Restreindre l’accès à une adresse IP spécifique ou à un bloc d’adresses CIDR. Par défaut, non défini (aucune restriction).

XINFERENCE_BATCH_SIZE#

Taille de lot par défaut utilisée par le serveur lorsque le traitement par lots est activé. La valeur par défaut est 32.

XINFERENCE_BATCH_INTERVAL#

Intervalle de traitement par lots par défaut (en secondes). La valeur par défaut est 0,003.

XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU#

Est-il permis de créer plusieurs répliques sur un seul GPU. La valeur par défaut est 1 (activé).

XINFERENCE_LAUNCH_STRATEGY#

Stratégie d’allocation de GPU pour les réplicas. La valeur par défaut est IDLE_FIRST_LAUNCH_STRATEGY.

XINFERENCE_MAX_CONCURRENT_LAUNCHES#

Maximum number of model launches that can proceed concurrently on a single worker node. When more replicas are launched than this limit, excess launches queue and proceed as slots free up. This prevents resource exhaustion (fork storms, disk IO saturation, GPU memory contention) that can cause heartbeat timeouts. Default value is 5.

XINFERENCE_ENABLE_VIRTUAL_ENV#

Activer globalement l’environnement virtuel du modèle. La valeur par défaut est 1 (activé, en vigueur depuis la version v2.0).

XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED#

Ignorer les paquets déjà présents dans les site-packages système lors de la création d’un environnement virtuel. La valeur par défaut est 1.

XINFERENCE_CSG_TOKEN#

Jeton d’authentification pour la source de modèle CSGHub. Valeur par défaut non définie.

XINFERENCE_CSG_ENDPOINT#

Point de terminaison source des modèles CSGHub. Valeur par défaut : https://hub-stg.opencsg.com/.

XINFERENCE_QWEN3_RERANK_TEMPLATE#

Enable template for Qwen3 rerank model family (0.6B, 4B, 8B,etc) globally. Default value is 1.

XINFERENCE_LAUNCH_HISTORY_DB_PATH#

Path to the SQLite database that stores the model launch configuration history shown in the « Launch Model » drawer of the Web UI. This store is shared across all clients so the history is available from any browser or machine, and it is independent of the authentication database. When authentication is enabled, each record keeps the creator’s username (created_by). Default value is <XINFERENCE_HOME>/launch_history.db.