rust编译参数
A. Rust中的String,&str和str都是什么
本文旨在深入解析 Rust 语言中 String、&str 和 str 的本质与特性。
String 可以被视为一个由三个核心元素组成的结构体:一个指向堆上连续内存的指针,一个表示已使用内存大小的变量 len,以及一个表示内存总容量的变量 capacity。String 在被创建后会从堆上获取内存,在被释放前会释放这些内存,因为它实现了 Drop trait,这意味着 String 不能实现 Copy trait。
String 内部的连续内存视作 u8 数组,确保了内部存储的字节序列符合 UTF-8 编码标准。这使得 String 在处理文本数据时非常高效且可靠。
&str 是 String 的借用形式,也称为字符串切片。通过对 String 进行 deref 操作,可以得到 &str。deref 的底层实现使用 from_utf8_unchecked 函数对 &[u8] 数据进行解释,这类似于 C 语言中的 reinterpret_cast。因此,我们可以将 &str 和 &[u8] 看作是具有相同结构的类型。
&[T] 类型与普通的引用有所不同,它具有两个 usize 的大小。&[T] 用于指向连续内存,并携带被指向内存的长度信息。从_raw_parts 函数可以创建 &'a [T] 类型,该函数接受一个指针和一个长度参数。
&str 的特殊性使其与普通的引用区分开,这种包含元数据的引用被称为“胖指针”。*const str 和 *mut str 可以通过 &str 转换而来,这意味着这些原始指针类型同样具有两个 usize 的大小。
考虑到 Rust 中的 str、[T] 以及 dyn Trait 是动态大小类型的常用表示,我们对 str 的内部组织进行了分析。str 类似于 &str,即由 u8 类型的连续内存组成,但其长度在运行时动态变化,因此无法在编译时确定。
为了将 DST 类型的实例存储在栈上,需要使用 Rust 的 nightly 版本并开启 unsized_locals 特性。创建 String 实例并使用 push_str 函数动态添加数据后,可以调用 into_boxed_str 将 String 转换为 Box。
值得注意的是,str 类型并未实现 Copy trait,这意味着不能直接拷贝 str 对象。当将 str 转移到栈上时,Box 的解引用能够转移所有权,而不是简单地调用 *boxed.deref()。这表明 str 数据被转移到了栈上。
通过内存视图的观察,可以发现 str 类型实际上存储在栈内存中,且具有动态大小。实验结果显示 str 占用了 11 个字节的内存空间,而紧随其后的数据与 str 无关。当尝试访问 str 变量时,会遇到相关元数据的获取问题。
在 Rust 中,使用 & 来访问 DST 类型的值,而不需要像使用 &str 那样显式指定。这是因为 & 可以作为引用类型,而在访问 DST 类型时需要获取其内部的元数据。在某些情况下,例如在使用 unsized_locals 特性时,通过 & 进行访问可以实现 DST 类型的栈上存储。
B. Rust 宏简记 - 以 vec! 为例
Rust 的宏,这里主要指的是 macro_rules! ,可以实现很多强有力的工具,但是毕竟跟函数实现还是不同,需要有一些额外注意的点。
这里简要解析一下 std::vec! 的实现。此段需要读者大致明白 vec! 的用法。
首先, #[cfg(not(test))] 表示这是一个仅在非 test 模式下才有用的宏,换言之,test 模式可能使用一个其他的宏。这里不展开此问题。
#[macro_export] 表示这个宏可以在其他的 crate 中使用。
头部标记的剩余两行也不解释。
vec! 这个宏有三种形式,第一种类似数组的定义方式。 [0; 10] 定义一个长度是 10,每个数字都是 0 的数组,相应地, vec![0; 10] 构造类似的 Vec 。
有趣的是,宏的定义中“参数”外部的括号是小括号,但是大多标准库的文档给出的实例都是中括号。这是因为 Rust 的宏不限制“调用”的括号是什么,我们甚至可以选择大括号。而 vec! 调用时选择中括号的原因,只是为了让这种语法跟构造数组的语法更相似而已。
参数列表里的 expr 放在 $elem 的类型的位置,这从语法上,跟 Rust 函数的参数类型也是相似的。 expr 表示 $elem 需得是一个表达式(Expression),此外还有一些其他的,宏参数可以用的类型。由此看出,Rust 的宏是有基本的类型分类的,而不是像 C 那样,所有参数都是没有类型的 token。
还有一点, $crate 这个宏参数,并不在参数列表里,所以可以推测它是用来表示某个特殊意思的参数。而从这个参数的命名上来说,它应该表示当前 crate 的名字。 vec! 当然是在 std 这个 crate 实现的。但是 std 不能假定使用这个宏的人,也把此 crate 起名叫做 std。Rust 允许用 as 关键字重命名一个 crate,而 $crate 理应为我们的宏适配这种命名修改。所以我们在编写导出到 crate 外部的宏的时候,想要访问 crate 内部的类型或者方法时,都应该使用这个参数。
第二种形式就显得不太好阅读,但是结合第三种形式,我们还是能猜出它的意思。第二个形式匹配 vec![a, b, c] 这样的调用,第三个形式匹配 vec![a, b, c,] 这样的调用。根据这种模式,我们猜测 ($($x:expr);*) 可能匹配 (a; b; c) 这种调用。
第二个形式中,参数的使用和参数定义基本上是一样的格式(只是没了类型定义)。所以我们猜测这个效果也就是把参数按照 a, b, c 这样展开而已。但 box [a, b, c] 是个什么还看不懂。根据头上的 box_syntax ,我觉得这是一种还没有 stable 的新的语法。
可以看出第三个形式的调用调用了第二个形式,我认为个实现没什么营养,可能 Rust 编译器需要考虑一下怎么移除这种没必要的特性。