Passer au contenu principal

Ctrl+K

Guide de démarrage
Modèle
Guide de l’utilisateur

GitHub
Telegram
Discord
Twitter

Guide de démarrage
Modèle
Guide de l’utilisateur
Exemple
Guide de l’API
Guide de développement
Official Site

GitHub
Telegram
Discord
Twitter

Navigation dans la section

moteur d’inférence
API client
Système OAuth2 (expérimental)
Guide de chargement des modèles
Metrics
Inférence distribuée
Traitement par lots continu
Xavier: Partage du cache KV entre plusieurs répliques VLLM

Guide de l’utilisateur

Guide de l’utilisateur#

moteur d’inférence
- llama.cpp
- transformers
- vLLM
- SGLang
- MLX
API client
- LLM
- Embedding
- Image
- Audio
- Rerank
Système OAuth2 (expérimental)
Guide de chargement des modèles
Metrics
- Supervisor Metrics
- Worker Metrics
Inférence distribuée
- Moteurs pris en charge
- Utiliser
Traitement par lots continu
Xavier: Partage du cache KV entre plusieurs répliques VLLM
- Utilisation
- Limitation

précédent

Calcul de l’utilisation de la mémoire du modèle

suivant

moteur d’inférence

Montrer le code source

© Copyright 2025, Xorbits Inc..

Créé en utilisant Sphinx 8.1.3.

Construit avec le thème PyData Sphinx 0.19.0.