Analyse : Le contenu open source de TileKernels correspond aux spécifications de l'architecture V4 divulguées par Yifan Zhang

robot
Création du résumé en cours

CoinWorld消息,分析师Yifan Zhang披露的V4架构规格与DeepSeek开源的TileKernels内核库存在多处对应。
Zhang称V4残差连接使用了流形约束超连接(MHC),这是对字节Seed团队2024年提出的HC加双随机矩阵约束的改进版。
通过TileKernels内核代码推测V4架构,三项核心命中、一项落空。
模型卡确认V4使用MHC,命中。
模型卡还确认V4是MOE模型,命中。
权重使用FP4+FP8混合存储,命中。
唯一未中的是条件记忆模块(Engram),模型卡同样未提及。
模型卡揭示了TileKernels未涉及的新组件:混合注意力机制(CSA + HCA)是V4长上下文效率飞跃的核心,1M上下文下推理FLOPS仅为V3.2的27%,KV缓存仅10%训练改用Muon优化器。

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler