RISC-V尤为糟糕的部分！

2024-04-10 20:37:58

前言

本文最初完成于几年之前，彼时作者正在 ARM 公司担任执行核心验证工程师职位。作者当时的工作深入或围绕多种处理器核心，而文中提到的观点深受这些经验的影响，换句话说，这些观点存在不同程度的偏见。

作者依旧坚持认为 RISC-V 的设计并不完美，但同时也承认，如果现在需要搭建一个 32 或 64 位的 CPU，他在实现构建时也会从现有工具中受益。

本文主要基于 RISC-V ISA 规范 v2.0，部分已更新至 v2.2。

一些观点

RISC-V ISA 对极简主义的追求钻了牛角尖，它极力强调减少指令数量，规范编码等等。而这种追求则导致了错误的正交性（分支、调用、返回时重复使用同一指令），以及对赘余指令的需求，这些在程序大小和指令数量上都会影响到代码密度。

以下面的 C 代码为例：

int readidx(int *p, size_t idx){ return p[idx]; }

简单的数组索引，非常常见的操作。将其在 x86_64 中编译：

mov eax, [rdi+rsi*4]ret

或者是 ARM 中：

ldr r0, [r0, r1, lsl #2]bx lr // return

但是在 RISC-V 中需要的代码则是：

# 很抱歉如果有任何语法错误，risc-v 并没有在线编译器slli a1, a1, 2add a0, a1, a1lw a0, a0, 0jalr r0, r1, 0 // return

RISC-V 的极简主义让解码器（CPU 前端）变得更简单，代价则是需要执行更多的指令。然而，相对于拓宽流水线这个难题而言，解码不规则指令的问题很好解决，主要难点在于确定指令的长度是否一致。x86 的众多前缀就是个极佳的反面教材。对指令集的简化不应追求极限。寄存器 + 移位寄存器的内存操作指令是程序中非常常见且简单的操作，对于 CPU 而言也很容易实现。即使无法直接执行，CPU 也可以相对轻松地将其分步执行，其操作复杂程度远逊色于融合简单操作的序列。

CISC CPU 中的“复合”指令，繁复、少有使用且普遍性能低下，而 CISC 和 RISC CPU 通用的“功能”指令则意指结合了少量操作序列并且使用率高、性能高的指令。这二者应当有所区分。

还不错的部分

几乎不受任何限制的可扩展性。虽说这是 RISC-V 的卖点，但它同时也是碎片化、不兼容生态系统的罪魁祸首，在管理时还需加倍小心。

调用、返回和寄存器间接分支使用同一指令（JALR）。分支预测需要额外解码。

调用：Rd = R1
返回：Rd = R0, Rs =R1
间接分支: Rd = R0, Rs≠ R1
（奇怪分支：Rd≠ R0, Rd ≠ R1)

可变长度编码无法自我同步。x86 和 Thumb-2 中都存在的常见问题，会导致实现和安全性方面的各种漏洞，例如面向返回的编程攻击。

RV64I 规定所有 32 位值的符号扩展。这一点会导致不必要的上半切换，或者需要对寄存器的上半部分进行特殊调整。建议采用零扩展，在减少切换的同时，通常还可以在已知上半部分为零的情况下，通过追踪”为零“位来进行优化。

乘法是可选项。考虑到高速乘法器在微型实现中占用的面积不容忽视，创建占用更小，还可以将现有 ALU 广泛用于多循环乘法的小型乘法器不失为良策。

LR/SC 指令对有限使用子集有严格的最终转发要求。尽管这项限制颇为严苛，但对于没有缓存的小型实现而言有可能会带来一些问题。

这一点似乎是 CAS 指令的替代品，具体请参照有关该指令的注释。

FP 粘性位和舍入模式处于同一寄存器中。如果想通过执行 RMW 操作改变舍入模式，则需要对 FP 管道进行序列化。

FP 指令支持的编码精度有 32 位、64 位和 128 位，唯独没有硬件中更为常见的 16 位。

这点很容易修正：我们有免费的字组编码 2’b10。

更新：v2.2 中添加了十进制 FP 扩展占位符，但仍然没有半精度占位符。迷惑行为。

FP 寄存器文件中的 FP 值未指定，但可以通过加载 / 存储观察到。

仿真器作者要恨死你了。

VM 迁移会将变为不可能。

更新：v2.2 需要 NaN 装箱更宽的值。

糟糕的部分

没有条件代码，只有比较和分支指令。这一点自身没什么问题，但它意味着：需要编码一到二个寄存器说明符，导致条件分支中的编码空间减少。

没有条件选择，这一点在高度不可预测的分支中很有用。

加法 / 减法没有加进位或借位。（即使这样，这也比 ISA 将 flag 写入通用寄存器 GPR，然后在结果 flag 上分支要好。）

用户级 ISA 需要高精度计数器。在实践中，将这些计数器暴露给应用程序意味着侧通道攻击的好机会。

乘法和除法同属于一个扩展，无法单独实现其中之一。相比除法，乘法要简单许多，而且在大多的 CPU 上很常见。

基础 ISA 中没有原子指令。多核微型处理器越来越普遍的今天，LL/SC 类型原子指令也越来越廉价：只需要 1 位 CPU 状态即可完成最小 CPU 实现。

LR/SC 和更复杂的原子指令同属于一个扩展。直接限制了小型实现的灵活性。

▶ 非 LR/SC 的一般原子指令不包含 CAS 原语

CAS 的设计是为了避免需要一条指令读取 5 个寄存器的情况，例如：加法器、Cmp:CmpLo，SwapHi:SwapLo。但 LR/SC 用于取代 CAS 的保底进度很可能只会在实现上带来更高的开销。

原子指令仅支持 32 位或 64 位操作，不支持 8 位或 16 位。

对 RV32I 而言，想在整数和浮点寄存器文件之间转换 DP 和 FP，只能通过内存解决。

举例来说：RV32I 的 32 位 ADD 和 RV64I 的 64 位 ADD 共用同一套编码，RV64I 又多加了一套 ADD.W 编码。如此一来，CPU 实现这两种指令时麻烦了许多，不如直接新增一套 64 位编码。

没有 MOV 指令。汇编器对于 MV 的等效指令是：MV rD, rS -> ADD rD, rS, 0。MOV 优化通常由高端处理器，尤其是失序处理器完成。识别 RISC-V 规范的 MV 需要一个 12 位的立即数。

在没有 MOV 指令的情况下，ADD rD, rS, r0 是对 MOV 不错的替代。它更易被解码，而 CPU 通常也会有特殊情况下的逻辑来识别零寄存器。

尤为糟糕的部分

JAL 在本该只是 R1（分支时是 R0）的链接寄存器编码上浪费了 5 比特。

这意味着 RV32I 有 21 位的分支位移（对于诸如浏览器等大型应用时，不使用多指令序列或者分支 island 时会不够用）。

▶ 其实是 1.0 版本 ISA 的历史遗留问题

尽管 RISC-V 在统一编码上花了大功夫，但加载 / 存储指令的编码仍然是不同的（寄存器 vs 立即字段互换）。

似乎寄存器编码的最终正交性要比两种高度相关指令的正交性更受欢迎。考虑到地址生成是对时序更为敏感的操作，这种选择有点奇怪。

寄存器偏移量（Rbase +Roffset）或索引（Rbase + Rindex << Scale）没有负载。

FENCE.I 意味着指令缓存和前面的存储区必须完全同步，无论是否有 fence。实现时需要在 fence 上刷新 I，或者通过snoop的方式监视D 和存储缓存区。

RV32I 中，读取 64 位计数器需读取上半部分两次，并进行比较和分支，以防在读取操作时下半部分和上半部分发生借位。

通常 32 位 ISA 包含了一个“读取一对特殊寄存器”的指令来避免这个问题。

架构上没有定义“提示”编码空间。提示编码是指在当前处理器上作为 NOP 执行，但在之后的变量上有操作的编码。

“NOP 提示”的常见例子是自旋锁 yield。

更复杂的提示也有实现。即那些对新处理器有明显副作用的提示，例如 x86 的边界检查指令被编码在提示空间，以便二进制文件保持向后兼容。

原文地址

https://gist.github.com/erincandescent/8a10eeeea1918ee4f9d9982f7618ef68

来源：InfoQ中文站

RISC-V十周年

从在2010年夏天,RISC-V项目启动到今天已经整整十周年了.紧随RISC-V十岁生日,让我们来简短回顾一下RISC-V从成立到今天的历史. 作为开放标准指令集架构(ISA)设计的先驱,RISC-V ...
RISC-V：开放硬件运动的下一场革命

Keysight World 全球线上云峰会明天9:00直播! 优化O-RAN O-RU芯片性能.5G和工业4.0.5G NR FR2解调技术.AI在无线领域的作用等 RISC-V是一种用于计算机芯 ...
RISC-V处理器是如何设计指令集的？有何特别之处

20 世纪 90 年代末,RISC 和 CISC 爆发了一场大战,自那以后,大家却说 RISC 和 CISC 的区别没那么重要了了.许多人表示,指令集也就那么回事,对 CPU 没什么太大的影响.但其实 ...
ARM和MIPS架构

ARM体系 1.历史 1978年12月5日,物理学家赫尔曼·豪泽(Hermann Hauser)和工程师Chris Curry,在英国剑桥创办了CPU公司(Cambridge Processing U ...
处理器扩展性有什么重要之处?

EETOP EETOP创芯网(易特创芯):国内著名的老牌电子工程师社区及半导体行业门户网站(150万会员) www.eetop.cn bbs.eetop.cn blog.eetop.cn edu.ee ...
都2021年了，还把x86和ARM归为CISC和RISC？

选自extremetech 作者:Joel Hruska 机器之心编译机器之心编辑部 William Faulker:「过去永远不会死,它甚至还没有过去.」 CISC 和 RISC 是 David ...
龙芯的全新自主指令集到底强在何处？

作者 | beyondma 责编 | 欧阳姝黎出品 | CSDN博客近日,龙芯推出自主指令系统架构:LoongArch,本文将从龙芯官方的材料中解读出一些干货内容,供读者们参考. 青出 ...
X86 / ARM / RISC－V / MIPS四大主流指令集架构有何特点

造芯片就跟建房子一样,第一步都是要打好基础,建立好框架,才能往上搬砖砌墙装修.而造芯片的第一步,首先要选择合适的架构. 芯片架构的选择大有讲究,不是随随便便就能决定的.芯片架构的出现与CPU息息相关, ...
书法知识大考V‖

要想学好书法,常识不能少!今天的考试开始! 第六十题:文徵明小楷书法作品的风格特征是什么? 取法"二王",温纯精绝.传世作品有<归去来兮辞><离骚经>等. ...
印度疫情爆发，更糟糕的还在后面

- 黄不邪 // 第192期 - 短暂回落没几天,印度单日新增新冠肺炎确诊病例41万例,再次成为疫情爆发以来的单日新增记录,也刷新了世界记录. 而这个惊人的数字,还远远没有达到印度医学专家估算 ...
45岁蒋勤勤穿衣真放得开，一袭深V连衣裙走红毯，身材真有“料”

对于女明星们来讲,深V领款式的连衣裙是经常会穿搭的单品,这种单品在舞台或红毯上的实用性很强,上身率也非常高,不管是对于身材骨感的女性还是身材丰满的女性都非常友好,身材丰满的女性可以通过深V领的版型穿出 ...
徐帆人到中年仍很靓，一袭小V领礼服优雅浪漫，比年轻时还有韵味

一袭浅色的礼服,低调而华贵,将徐帆的气质衬托得恰到好处,礼服的设计比较简单,小V领,露出精致光泽的锁骨,脖颈的线条柔美感足够,与肩膀处的线条形成一个很好的衔接,有收腰的设计,将身材的纤细匀称.柔软美丽 ...
父母糟糕，怎么拥有好的人生？

父母糟糕，怎么拥有好的人生？
工欲善其事，必先利其器。盘点新媒体大V都...

工欲善其事,必先利其器.盘点新媒体大V都在用的工具,让你省出一半时间!这样的效率一个月不赚3000,5000真的说不过去! 1.同步记录工具石墨文档,和word文档使用起来差不多.可以手机电脑同步, ...
看完王莫涵的这组粉色深V吊带裙照片，你就知道臂环多么重要！

提起王莫涵,虽然龙之少年是她的首部影视作品,但是初入戏场的她却毫不胆怯.她纯真清甜而又充满灵气的形象,以及认真的揣摩每一个角色,使得她拍摄的这部影视作品得到了大众人的认可.最近小编收录到一组王莫涵参加 ...
v

盛夏饮黄芪人参汤一般脾胃虚弱的人,由于后天气血生化之源不足,必然导致上焦心肺的气不足.到夏天天气炎热时,太盛的暑热就更加损伤元气,使人困乏倦怠,嗜睡,精神差,四肢无力,两脚萎软不能站立的.早晚气温 ...

RISC-V尤为糟糕的部分！

相关推荐