Guide de démarrage#
- Installation
- Utilisation
- journal de bord
- Image Docker
- Installer Xinference dans un cluster Kubernetes.
- Dépannage
- Aucune autorisation d’accès au dépôt Hugging Face.
- Version du pilote NVIDIA incompatible avec la version de PyTorch
- Les systèmes externes ne peuvent pas accéder au service Xinference via
<IP>:9997. - Le démarrage du modèle intégré prend beaucoup de temps, et le téléchargement du modèle échoue parfois.
- Lors de l’utilisation de l’image Docker officielle, RayWorkerVllm meurt à cause d’une OOM, ce qui empêche le chargement du modèle.
- Chargement du modèle LLM : paramètre
model_enginemanquant. - Résolution du conflit de couche de threads MKL
- Configurer le miroir PyPI pour accélérer l’installation des paquets
- Échec de l’installation de Xinference 1.12.0 avec uv (jusqu’en novembre 2025).
- Problème de compatibilité entre vLLM + Torch + Xinference (erreur de segmentation)
- Variables d’environnement
- XINFERENCE_ENDPOINT
- XINFERENCE_MODEL_SRC
- XINFERENCE_HOME
- XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD
- XINFERENCE_HEALTH_CHECK_INTERVAL
- XINFERENCE_HEALTH_CHECK_TIMEOUT
- XINFERENCE_DISABLE_HEALTH_CHECK
- XINFERENCE_DISABLE_METRICS
- XINFERENCE_DOWNLOAD_MAX_ATTEMPTS
- XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE
- XINFERENCE_SSE_PING_ATTEMPTS_SECONDS
- XINFERENCE_MAX_TOKENS
- XINFERENCE_ALLOWED_IPS
- XINFERENCE_BATCH_SIZE
- XINFERENCE_BATCH_INTERVAL
- XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU
- XINFERENCE_LAUNCH_STRATEGY
- XINFERENCE_MAX_CONCURRENT_LAUNCHES
- XINFERENCE_ENABLE_VIRTUAL_ENV
- XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED
- XINFERENCE_CSG_TOKEN
- XINFERENCE_CSG_ENDPOINT
- XINFERENCE_QWEN3_RERANK_TEMPLATE
- XINFERENCE_LAUNCH_HISTORY_DB_PATH
- Notes de version