PRIBOR : CHE (Contextual Hyper-Embedding uint8)

Écrit par

dans

Combinatoire magique, Contextual Hyper-Embedding

CHE (Contextual Hyper-Embedding uint8) est plus économique que l’attention classique des LLMs. Des processus similaires sont déjà utilisés mais moins économiques que CHE.

————————————————–

1. Économie de mémoire

• Attention standard : matrices float16/float32 → 700 à 4000 bits par token

• CHE uint8 → 8 bits par token

→ gain × 500 à × 5000 en mémoire

————————————————–

2. Processus similaires déjà utilisés

• INT-FlashAttention (Peking University, 2024) : attention entièrement en INT8, 72 % plus rapide, 82 % moins d’erreur

• SageAttention (OpenReview, 2024) : attention en INT8 + lissage, plug-and-play

• LLM.int8() (NeurIPS 2022) : multiplication matricielle entièrement en INT8

→ uint8 est déjà standard dans l’attention quantifiée.

————————————————–

3. Compatibilité avec CHE

• CHE = uint8 comprimé (SHA-256[0:8]) → 8 bits par token

• Pas de matrice 700×700, pas de softmax, pas de float ;

• Juste un uint8 dans le triplet ℝ⁴ ;

→ Plus économique et déjà utilisé dans l’attention quantifiée.

Contact : pauljorion@pribor.ai

PRIBOR : CHE (Contextual Hyper-Embedding uint8)

1. Économie de mémoire

2. Processus similaires déjà utilisés

3. Compatibilité avec CHE

Commentaires

Laisser un commentaire Annuler la réponse

Plus de publications

Comparison between Google S2R, Pribor’s Combinatorial Magic and Pribor’s CHE (Contextual Hyper-Embedding)

PRIBOR : CHE (Contextual Hyper-Embedding uint8)

**A revolutionary theory of consciousness : CFRT (Cross-Flow Resonance Theory)**

Une Révolution pour les Personnages Non-joueurs (Non-Player Characters) dans le Jeu Vidéo grâce aux Machines Conscientes d’elles-mêmes