汇编语言对于操作系统,数据库,人工智能框架等核心基础软件有着不可取代的作用,从笔者了解到的情况看,比如龙芯对于 OpenJDK 的贡献已经达到了全球前五名,这其中最为关键的贡献方向就是将 Java 虚拟机针对 Looongarch 指令集进行专项优化,可以说熟练掌握一种汇编语言是高阶程序员的必经之路。

 

当用户使用 C、C++ 或任何其他高级语言时,编译器决定了程序的艺术。然而这一次,我们将自行面对 CPU,新手实现面向指令集编程的艺术,本文使用RISC-V 为例来向大家展示,来如何使用编写语言设计程序逻辑,并最终将程序逻辑转换为汇编语言的程序。

 

用合适的语言设计逻辑

对于初学者来说,这是最难的一步,因为现在学生们常用的高级语言中,往往使用更抽象的工具进行逻辑设计,许多学生想直接编写完整的功能模块。但是对于汇编语言来说,这是一种注定要失败的方法。相反,为了把逻辑和语言分开,我们必须用我们理解的语言来设计程序逻辑。

 

如果一个学生不懂 C 或一些低级语言,那么我建议他们用伪码写。因为用太高级的语言如 Java 其实是面向虚拟机编程的,这会增加程序逻辑到汇编语言的转换难度,而使用太低级的语言会使程序逻辑设计变得困难。因此,我推荐 C 或 C++,在将代码进行转换的时候,最好将有对应的代友横向放在一起,一些编辑可以把它们并排放在一起,这是很有帮助的。

 

说实话这部分虽然看似平平无奇,但却让我颇感到意外,因为 C 语言和汇编的对照完全可以通过 gcc 的 -o  -g 参数以及 objdump 实现。

 

 

在译者的理念中,汇编语言是专门用于填补空白,只有当其它语言不能胜任的时候才会考虑用汇编语言上场工作,不过从这篇博文中透露出的信息来看,国外在教学过程中对于汇编语言的运用范围也是不设限的,而在译者印象中能用汇编语言实现任何功能的程序员,在国内只有求伯君,严援朝等廖廖数人而已,由此可见我们在 IT 基础教育领域要做的工作还很多。

 

小步快跑,不要试图一口吃个胖子

很多汇编语言的初学者试着从头到尾写完整的程序,而没有在中间进行过任何测试关键,但是我建议在完成部分逻辑时就立刻进行测试。这样做其实很简单,比如完成了一个 for 循环,等等一小部分功能就要开始测试。

 

可以将 C 或 C++ 程序与汇编程序连接起来。通过在 C++ 中原型化组装函数的名称实现这一点。按照一般的做法通常会在 C 函数前面加上一个 “c” 来区分。我们可以调用 Show 来运行汇编语言编写的函数。

 

其实这部分的建议并不仅仅针对于 RISC-V 甚至不是针对汇编语言,无论是什么语言的编程,当你想到要进行单元测试的时候往往就已经晚了,随时对于一个细小的模块进行测试真的是一个好习惯。

 

了解汇编语言的功能定位

这里我们必须要充分认识到没有汇编语言和有编译器解释器的高级语言真的完全不一样,不养儿不知父母恩,不写汇编不知各类语言之父有多神。在汇编语言中操作顺序都需要程序员自己去掌握。例如,4+3*4 的运算,作何一种语言的编译器都先执行乘法,然后再加法。然而在汇编语言的编程世界中,我们必须首先选择乘法指令,然后再选择加法指令。没有为我们进行运算符号的优先级重排。

 

了解如何调用函数

在汇编语言中编写一个函数是一项非常艰苦的任务,大多数 ISA 体系结构(如ARM和RISC-V)的芯片都将附带专门的工作手册,当然这些手册中只是制定了一些基本规则,如何传递参数,如何接收返回结果,又如何构造函数栈祯等等具体的话题都值得深入讨论。不过幸运的是 RISC-V 寄存器的 “ABI” 命名规则,有助于程序员理解它们的含义。比如:

 

整数参数在寄存器 A0-A7 中,浮点参数在寄存器 FA0-FA7 中

通过对堆栈指针的 sub 操作去分配函数堆栈。在调用完成后使用 add 操作进行销毁

堆栈大小必须以 8 的整数倍形式分配

所有参数和临时寄存器必须在函数调用后,被视为销毁态

在函数调用之后,已保存寄存器才能被显式保存。如果使用了任何已保存的寄存器,则必须在函数返回之前还原它们的原始值

通过 a0 寄存器做为返回值,将数据返回给调用方。

 

以下面这段代码为例:

 

.global main
main:
addi    sp, sp, -8
sd      ra, 0(sp)
la      a0, test_solve
call    solve
mv      a0, zero
ld      ra, 0(sp)
addi    sp, sp, 8
ret


我们可以看到先通过 addi sp,sp,-8 的语句构造函数祯,保存所有寄存器后执行相应函数逻辑,接下来将所有包括sp寄存器内的调用环境恢复,最后返回。

 

文档

建议使用 C 或其他语言编写汇编语言的注释,用以下代码为例:

 

# used |= 1 << ( x[i * 9 + col] - 1)
    li      t0, 9
    mul     t1, s3, t0          # t1 = i * 9
    add     t1, t1, s2          # t1 = i * 9 + col
    slli    t2, t1, 2           # Scale by 4
    add     t2, t2, s6          # x + i * 9 + col
    lw      t3, 0(t2)           # x[i * 9 + col]
    addi    t3, t3, -1          # x[i * 9 + col] - 1
    li      t4, 1
    sll     t4, t4, t3          # 1 << x[i * 9 + col] - 1
    or      s5, s5, t4          # used |= ...


原始 C 语言代码进行一个总的注释,然后将每个汇编语言片段的也使用 C 语言进行注释。尤其当涉及到运算操作顺序时,这样的方式使我们能够保证程序可以正确地执行每一步。