PRIBOR : CHE (Contextual Hyper-Embedding uint8)

CHE (Contextual Hyper-Embedding uint8) est plus économique que l’attention classique des LLMs. Des processus similaires sont déjà utilisés mais moins économiques que CHE.

————————————————–

1. Économie de mémoire

  Attention standard : matrices float16/float32 → 700 à 4000 bits par token

  CHE uint8 → 8 bits par token

→ gain × 500 à × 5000 en mémoire

————————————————–

2. Processus similaires déjà utilisés

  INT-FlashAttention (Peking University, 2024) : attention entièrement en INT8, 72 % plus rapide, 82 % moins d’erreur   

  SageAttention (OpenReview, 2024) : attention en INT8 + lissage, plug-and-play   

  LLM.int8() (NeurIPS 2022) : multiplication matricielle entièrement en INT8   

→ uint8 est déjà standard dans l’attention quantifiée.

————————————————–

3. Compatibilité avec CHE

  CHE = uint8 comprimé (SHA-256[0:8]) → 8 bits par token

  Pas de matrice 700×700, pas de softmax, pas de float ;

  Juste un uint8 dans le triplet ℝ⁴ ;

→ Plus économique et déjà utilisé dans l’attention quantifiée.

Contact : pauljorion@pribor.ai

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *