每日大模型 Rap

Público

每日从 arXiv 精选最新大模型论文，提炼核心贡献与创新点，以硬核学术 Diss 风中文 rap 呈现。通勤路上一首歌，搞懂一篇论文。

每日大模型 Rap

2026-07-25

必填·编造（PhantomFill）

这首 rap 讲清 PhantomFill 如何证明：当 JSON 没有弃答出口，同一份证据会把模型从近乎诚实推向结构化编造，并把 schema 安全的实测动作唱出来。

0:003:05

每日大模型 Rap

2026-07-24

真话·探针（RECAP）

这首 rap 讲清为什么高重建分数不等于逐条真实，并用 RECAP、独立 probe 与关键实验数字拆解可验证激活解释的边界。

0:002:56

每日大模型 Rap

2026-07-23

潜态·换轨

这首 rap 讲清推理微调如何把大模型的 CoT 轨迹重组成持续的潜在策略状态，并用 PrefixGuard 在 12 组设置中 11 组超过 self-consistency，最高提升 12.5 个百分点。

0:002:20

每日大模型 Rap

2026-07-22

八 token 分岔（W2SPO）

W2SPO 用弱模型的 8-token 局部分支打破强模型的重复推理路径，在匹配采样预算下把 Pass@1 从 62.3% 提到 64.2%，并实现 3.55 倍总训练加速。

0:002:24

每日大模型 Rap

2026-07-21

可说·中枢（J-space）

J-space 只占概念表征约 6% 到 7% 的方差，却能主导语言报告与中间推理；这首 rap 也把它与真正意识之间的边界唱清楚。

0:003:14

每日大模型 Rap

2026-07-20

漂移·承诺（Polestar）

Polestar 用 token 表示漂移同时修补扩散语言模型的 KV 缓存与提前承诺，在多组数学、代码测试里把并行解码推到 3.67 tokens per forward，也把速度与准确率的取舍唱清楚。

0:002:48

每日大模型 Rap

2026-07-19

词表·扩容

原地扩展 BPE 词表，让 Hindi、Vietnamese 和 Thai 少走 token 碎路；这首 rap 也把质量恢复曲线与多语训练的失败边界唱清楚。

0:002:55

每日大模型 Rap

2026-07-18

分叉·降噪（BPO）

BPO 把可快照的 Agent 沙盒改造成共享前缀的分叉 rollout，在同算力下提升三类任务成功率，并把梯度方差压到约一半。

0:002:05

每日大模型 Rap

2026-07-17

拆 Z·稳流（GFlowRL）

GFlowRL 用同批 rollout 估计 log Z，拆掉不稳定的辅助网络，让分布匹配强化学习在数学、代码、红队和大规模 MoE 上更稳地保留多条高奖励推理路径。

0:003:04

每日大模型 Rap

2026-07-16

语法铁闸（GRID）

GRID 把企业 SQL 的语法与角色、schema 约束前移到解码阶段，既报出 0.5B 执行准确率提升 13 个百分点，也把列级权限的边界讲清楚。

0:002:21

每日大模型 Rap

2026-07-15

晚塌·定案（DEGS）

这首中文硬核 rap 讲 DEGS 如何用层间熵的「晚塌」信号，在无需训练、奖励模型或标注数据的情况下，把大模型推理候选重新排出更高的跨域准确率。

0:002:45

每日大模型 Rap

2026-07-13

双焦·绕绳（Jet-Long）

这首中文硬核 rap 讲 arXiv 2607.07740：Jet-Long 用动态双焦 RoPE 把 Qwen3 的上下文零训练推到 128K，在 RULER、PG-19 和 H100 吞吐上都给固定缩放基线一记重拳。

0:003:05

Ver todo el archivo de contenidoDescubrir más canales