Passer au contenu principal
Ctrl+K
Xinference Xinference
  • Guide de démarrage
  • Modèle
  • Guide de l’utilisateur
    • Exemple
    • Guide de l’API
    • Guide de développement
    • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter
  • Guide de démarrage
  • Modèle
  • Guide de l’utilisateur
  • Exemple
  • Guide de l’API
  • Guide de développement
  • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter

Navigation dans la section

  • moteur d’inférence
  • API client
  • Système OAuth2 (expérimental)
  • Guide de chargement des modèles
  • Metrics
  • Inférence distribuée
  • Traitement par lots continu
  • Xavier: Partage du cache KV entre plusieurs répliques VLLM
  • Guide de l’utilisateur

Guide de l’utilisateur#

  • moteur d’inférence
    • llama.cpp
    • transformers
    • vLLM
    • SGLang
    • MLX
  • API client
    • LLM
    • Embedding
    • Image
    • Audio
    • Rerank
  • Système OAuth2 (expérimental)
    • Autorisation
    • Commencez à utiliser
    • Utilisation
    • Code d’état HTTP
    • Attention
  • Guide de chargement des modèles
    • copie
    • Stratégie de répartition mixte
    • Définir la variable d’environnement
    • Espace virtuel du modèle de configuration
    • Traitement par lots / traitement par lots continu
    • Mode de pensée
  • Metrics
    • Supervisor Metrics
    • Worker Metrics
  • Inférence distribuée
    • Moteurs pris en charge
    • Utiliser
  • Traitement par lots continu
    • Méthode d’utilisation
    • Interrompre la demande
    • Avertissements
  • Xavier: Partage du cache KV entre plusieurs répliques VLLM
    • Utilisation
    • Limitation

précédent

Calcul de l’utilisation de la mémoire du modèle

suivant

moteur d’inférence

Montrer le code source

© Copyright 2025, Xorbits Inc..

Créé en utilisant Sphinx 8.1.3.

Construit avec le thème PyData Sphinx 0.19.0.