Mutex 真的慢吗
发布于
引言 原视频The Cost of Concurrency Coordination with Jon Gjengset。 Mutex 真的慢吗 很多人一谈到并发,就会下意识地把性能问题归到锁头上: ...
继续阅读 →Next Door 0.5x Engineer
发布于
引言 原视频The Cost of Concurrency Coordination with Jon Gjengset。 Mutex 真的慢吗 很多人一谈到并发,就会下意识地把性能问题归到锁头上: ...
继续阅读 →发布于
多处理器最难的不是多加几个核 今天几乎所有计算机都在谈多核,但多处理器真正困难的地方,从来不只是把核心数量堆上去。难点在于:怎样让多个执行单元共享同一份内存,又让它们看到的结果既正确、又足够快。只要这...
继续阅读 →发布于
很多人第一次接触指令级并行时,直觉都是一样的:只要处理器一次能发更多指令,程序就会更快。真正的情况没有这么简单。指令之间的依赖、分支是否能提前预测、前端每周期能取多少条、后端每周期能发多少条、功能单元...
继续阅读 →发布于
如果想真正理解今天高性能处理器的基本套路,MIPS R10K 是一个非常好的切入口。它诞生于 1990 年代中期,但很多今天仍在使用的核心思想,在它身上都已经相当成熟:寄存器重命名、乱序执行、按序提交...
继续阅读 →发布于
处理器前端最难的一件事,不是把指令取出来,而是要在结果还没出来之前,先决定下一步往哪走。分支一旦猜错,流水线就要回滚,前面抢跑出来的工作都会白做。真正优秀的分支预测器,做的不是“碰运气”,而是在有限的...
继续阅读 →发布于
前言 论文原文Efficient Benchmarking of AI Agents。 让 AI Agent 排行更便宜的一种办法 给 AI agent 做评测,正在变成一件越来越贵的事。和传统语言模...
继续阅读 →发布于
前言 论文原文Code Review Agent Benchmark 自动代码评审离真正理解人类反馈还有多远 AI 写代码越来越快,代码评审反而更容易成为新的瓶颈。 今天的问题已经不是“模型能不能写...
继续阅读 →发布于
做计算机系统设计,几乎不存在“更快、更省电、更便宜”同时成立的完美答案。真正的工作,通常是在功耗、性能、面积三者之间做受约束的最优化;而真正的难点,则是在测量时别把自己骗了。把这两件事放在一起看,才能...
继续阅读 →发布于
现代乱序处理器之所以快,很大程度上靠的是“先做能做的事”。寄存器相关性可以靠重命名拆开,但一碰到内存,事情立刻复杂起来:一条 load 到底能不能先跑?它读到的值应该来自 cache,还是来自某条更老...
继续阅读 →发布于
一台处理器能不能把宽发射、乱序执行、多个功能单元真正喂饱,关键往往不在后端,而在前端。后端再宽,取不到足够多、足够连续、足够正确的指令,吞吐量就上不去。理解宽取指,真正要看的不是“每周期能取几条”这句...
继续阅读 →