Xavier: Partage du cache KV entre plusieurs répliques VLLM#

Pour les scénarios tels que les requêtes sur de longs documents et les dialogues multi-tours, le calcul pendant la phase de pré-remplissage de l’inférence peut être particulièrement lourd, ce qui affecte le débit global et la latence d’une seule inférence. Xinference améliore le moteur vllm en introduisant le framework Xavier, permettant le partage du cache KV entre plusieurs instances vllm. Cela permet de réutiliser directement le cache KV calculé par d’autres répliques, évitant ainsi les calculs redondants.

Utilisation#

Lors du démarrage du modèle vllm, définissez l’option enable_xavier=True.

Limitation#

Xavier nécessite une version de vllm au moins 0.7.0. Les versions de vllm supérieures à 0.11.0 ne sont pas encore prises en charge.
Comme la communication sous-jacente ne peut pas reconnaître l’adresse 0.0.0.0, il est nécessaire de configurer une adresse IP réelle lors du démarrage de xinference, par exemple : xinference-local -H 192.168.xx.xx.
Xavier ne prend en charge que les cartes graphiques Nvidia.