线程间Bug检测工具Canary
Canary
- 1.Introduction
- 2.Approach
- 2.1.数据依赖分析
- 2.2.线程间依赖分析
- 3.Bug检测
- 4.Evaluation
- 参考文献
1.Introduction
主要做跨线程value-flow bug检查,下面代码中两个函数中存在指向关系:1. x→o1x \rightarrow o_1x→o1, b→o2b \rightarrow o_2b→o2 以及赋值关系: o1=ao_1 = ao1=a。考虑跨线程的数据流存在 y=xy = xy=x、o1=bo_1 = bo1=b(覆盖掉 aaa)。如果 θ1\theta_1θ1 满足,那么 o1=ao_1 = ao1=a,因此 c=ac = ac=a,print
操作安全。如果 θ2\theta_2θ2 满足,那么线程执行完后根本不会执行 print
操作,因此没有bug。但是现有静态分析工具可能会错误判断 free(b)
到 print(*c)
存在use-after-free。
作者提出了Canary,对上面代码可构造如下value-flow graph,其中 b@l13→c@l6b@l_{13} \rightarrow c@l_6b@l13→c@l6 对应 *y = b
和 c = *x
,x, y
都指向了共同的堆对象 o1o_1o1,路径条件为 θ1∧¬θ1\theta_1 \wedge \neg \theta_1θ1∧¬θ1。同时线程间执行需要保证语句的先后顺序,用 O2>O1O_2 > O_1O2>O1 表示 l2l_2l2 在 l1l_1l1 后执行,那么还存在偏序关系 O13>O3∧O14>O3O_{13} > O_3 \wedge O_{14} > O_3O13>O3∧O14>O3。随后Canary会调用SMT求解上面约束条件验证该bug存在条件不可行。
相比顺序程序,并发程序分析的核心在于,对于 l1:∗x=ql_1: *x = ql1:∗x=q, l2:p=∗yl_2: p = *yl2:p=∗y,不仅要分析 x,yx, yx,y 别名的路径条件;还要分析 l1→l2l_1 \rightarrow l_2l1→l2 路径下 x,yx, yx,y 可能指向的内存是否会被其它线程覆写。
2.Approach
分为数据依赖分析和线程间依赖分析。
2.1.数据依赖分析
规则如下和pinpoint类似,自底向上对每个函数生成summary再分析其caller,先进行代码转换方便暴露每个函数的side-effect。转换的规则应该覆用了pinpoint的,对于下面代码。
int f(v1, v2, ...) {...return v0;
}
转换后可能为:
int f(v1, v2, ... , F1, F2, ...) {∗(vj, k) = Fi; /* for all (i, j, k). */...;Rp = ∗(vq,r); /* for all (p,q,r). */return {v0, R1, R2, ...};
}
对于调用点:
// 转换前
u0 = f(u1, u2, ...);
// 转换后
Ai = ∗(uj, k); /* for all (i, j, k). */
{u0, C1, C2, ... } = f(u1, u2, ... ,A1,A2, ...);
∗(uq,r) = Cp =; /* for all (p,q,r). */
在分析函数 FFF 时按照每个指令在CFG中的逆后序处理每条指令。分析完后 Trans(F)\text{Trans}(F)Trans(F) 记录了 FFF 在其形参 viv_ivi 的副作用。
线程内指令的分析规则基于flow-, path-sensitive指针分析,如下所示。这里暂时不考虑线程间的关系,碰到 fork
调用直接跳过。
指令类型 | 示例 | 规则 |
---|---|---|
alloca | l,φ:p=&ol, \varphi: p = \&ol,φ:p=&o | (φ,o)∈pts(p)(\varphi, o) \in \text{pts}(p)(φ,o)∈pts(p) |
copy | l,φ:p=ql, \varphi: p = ql,φ:p=q | (γ∧φ,o)∈pts(p)∣∀(γ,o)∈pts(q)(\gamma \wedge \varphi, o) \in \text{pts}(p) \mid \forall (\gamma, o) \in \text{pts}(q)(γ∧φ,o)∈pts(p)∣∀(γ,o)∈pts(q) |
load | l,φ:p=∗yl, \varphi: p = *yl,φ:p=∗y | (γ∧φ,o′)∈pts(p)∣∀(_,o)∈pts(y),∀(γ,o′)∈ptsINl(o)(\gamma \wedge \varphi, o^{'}) \in \text{pts}(p) \mid \forall (\_, o) \in \text{pts}(y), \forall (\gamma, o^{'}) \in \text{pts}_{\text{IN}_l}(o)(γ∧φ,o′)∈pts(p)∣∀(_,o)∈pts(y),∀(γ,o′)∈ptsINl(o) |
store | l,φ:∗x=ql, \varphi: *x = ql,φ:∗x=q | (1). pts(x)=∅∣x→(γ,o)\text{pts}(x) = \emptyset \mid x \rightarrow (\gamma, o)pts(x)=∅∣x→(γ,o) (strong update), (2).(γ∧φ,o)∈pts(o′)∣∀(γ,o)∈pts(q),∀(γ′,o′)∈pts(x)(\gamma \wedge \varphi, o) \in \text{pts}(o^{'}) \mid \forall (\gamma, o) \in \text{pts}(q), \forall (\gamma^{'}, o^{'}) \in \text{pts}(x)(γ∧φ,o)∈pts(o′)∣∀(γ,o)∈pts(q),∀(γ′,o′)∈pts(x) |
call | l,φ:(x0,...,xn)=f(v1,...,vn)l, \varphi: (x_0, ..., x_n) = f(v_1, ..., v_n)l,φ:(x0,...,xn)=f(v1,...,vn) | (φ,Trans(f,pts(vi)))∈pts(xi)∣∀i∈[1,n](\varphi, \text{Trans}(f, \text{pts}(v_i))) \in \text{pts}(x_i) \mid \forall i \in [1, n](φ,Trans(f,pts(vi)))∈pts(xi)∣∀i∈[1,n] |
2.2.线程间依赖分析
这一步是Canary的核心,当 l1:∗x=ql_1: *x = ql1:∗x=q 和 l2:p=∗yl_2: p = *yl2:p=∗y 在不同线程时,x,yx, yx,y 别名的前提除了本身必须可能指向同一块内存外还必须满足 O2>O1O_2 > O_1O2>O1,这步包括依赖边构造和依赖条件计算两个步骤。
2.2.1.依赖边构造
需要识别线程共享内存,这些内存对象被称为escaped memory。用 EspObj\text{EspObj}EspObj 表示程序中所有escaped memory object,Pted(o)\text{Pted}(o)Pted(o) 表示指向 ooo 的所有指针。在线程内数据依赖分析基础上,作者定义下面规则,其中ttt 表示某个线程,t′t^{'}t′ 表示其它线程。
-
计算 EspObj\text{EspObj}EspObj:
-
step 1: 将
fork
调用中传递的object添加进 EspObj\text{EspObj}EspObj 。 -
step 2: 根据已有的 EspObj\text{EspObj}EspObj 和
store
指令更新集合,o′∈EspObj∣(c1).∀l:∗x=q(c2)(,o)∈pts(x)(,o′)∈pts(q)(c3)o∈EspObjo^{'} \in \text{EspObj} \mid (c1).\forall l: *x=q \;\; (c2) (_, o) \in \text{pts}(x) \; (_, o^{'}) \in \text{pts}(q) \;\; (c3) o \in \text{EspObj}o′∈EspObj∣(c1).∀l:∗x=q(c2)(,o)∈pts(x)(,o′)∈pts(q)(c3)o∈EspObj。
-
-
计算 Pted\text{Pted}Pted: 对EspObj\text{EspObj}EspObj 中的每个 ooo 找到能传播到的所有指针,存入集合 NNN,σ\sigmaσ 为遍历过程中的路径条件:(n,σ)∈Pted(o)(n, \sigma) \in \text{Pted}(o)(n,σ)∈Pted(o)。
-
计算依赖边:: l1→l2∣(c1).∀l1,φ1:∗x=q∈t(c2).∀l2,φ2:p=∗y∈t′(c3).(x,α),(y,β)∈Pted(o),(c4).o∈EspObjl_1 \rightarrow l_2 \mid (c1).\forall l_1, \varphi_1: *x = q \in t \;\; (c2).\forall l_2, \varphi_2: p = *y \in t^{'} \;\; (c3).(x, \alpha), (y, \beta) \in \text{Pted}(o), (c4).o \in \text{EspObj}l1→l2∣(c1).∀l1,φ1:∗x=q∈t(c2).∀l2,φ2:p=∗y∈t′(c3).(x,α),(y,β)∈Pted(o),(c4).o∈EspObj。
这个示例中 EspObj={o1,o2}\text{EspObj} = \{o_1, o_2\}EspObj={o1,o2}, Pted(o1)={x,y}\text{Pted}(o_1) = \{x, y\}Pted(o1)={x,y}, Pted(o2)={b,c}\text{Pted}(o_2) = \{b, c\}Pted(o2)={b,c}(paper中这么写的,有点迷惑,fact的路径条件应该是被忽略了)。
2.2.2.依赖条件计算
一个value-flow edge: l1,φ1:∗x=q⟶l2,φ2:p=∗yl_1, \varphi_1: *x = q \longrightarrow l_2, \varphi_2: p = *yl1,φ1:∗x=q⟶l2,φ2:p=∗y 的路径条件包括 x,yx, yx,y 的别名条件 Φalias\Phi_{\text{alias}}Φalias 以及 O2>O1O_2 > O_1O2>O1 的条件 Φls\Phi_{\text{ls}}Φls。
Φalias=⋁(φ1∧φ2∧α∧β)∣∀(α,o)∈pts(x),(β,o)∈pts(y)\Phi_{\text{alias}} = \bigvee (\varphi_1 \wedge \varphi_2 \wedge \alpha \wedge \beta) \mid \forall (\alpha, o) \in \text{pts}(x), (\beta, o) \in \text{pts}(y)Φalias=⋁(φ1∧φ2∧α∧β)∣∀(α,o)∈pts(x),(β,o)∈pts(y),上面示例中:*y = b -> c = *x
的条件为 θ1∧¬θ1\theta_1 \wedge \neg \theta_1θ1∧¬θ1。
Φls\Phi_{\text{ls}}Φls 的计算中需要保证 (1) store s
和 load l
的执行顺序 Ol>OsO_l > O_sOl>Os,同时 (2) s→ls \rightarrow ls→l 之间没有其它 store
语句会写入 ooo。让 S(l)S(l)S(l) 表示 lll 数据依赖的所有 store
语句。那么 Φls=⋀s,s′∈S(l)(Os<Ol⋀∀s′≠sOs′<Os∨Ol<Os′)\Phi_{\text{ls}} = \bigwedge\limits_{s,s^{'} \in S(l)} (O_s < O_l \bigwedge\limits_{\forall s^{'} \neq s} O_{s^{'}} < O_s \vee O_l < O_{s^{'}})Φls=s,s′∈S(l)⋀(Os<Ol∀s′=s⋀Os′<Os∨Ol<Os′)。 Os′<Os∨Ol<Os′O_{s^{'}} < O_s \vee O_l < O_{s^{'}}Os′<Os∨Ol<Os′ 表示 sss 和 lll 之间不存在其它 store
语句会修改 lll 引用的内存。
3.Bug检测
这里主要检测线程间use after free。其中source为 free
点,sink为 use
点。其中存在source - sink路径 π=⟨v1@l1,v2@l2,...,vk@lk⟩\pi = \langle v_1@l_1, v_2@l_2, ..., v_k@l_k \rangleπ=⟨v1@l1,v2@l2,...,vk@lk⟩,bug存在的条件 Φall(π)=Φguards(π)∧Φpo(π)\Phi_{\text{all}}(\pi) = \Phi_{\text{guards}}(\pi) \wedge \Phi_{\text{po}}(\pi)Φall(π)=Φguards(π)∧Φpo(π)。
-
Φguards(π)=⋀i∈[1,k−1]Φguards(vi@li→vi+1@li+1)\Phi_{\text{guards}}(\pi) = \bigwedge\limits_{i \in [1, k-1]} \Phi_{\text{guards}}(v_i@l_i \rightarrow v_{i+1}@l_{i+1})Φguards(π)=i∈[1,k−1]⋀Φguards(vi@li→vi+1@li+1) 为数据依赖的路径条件。
-
Φpo(π)=⋀i∈[1,k−1]⋀j∈[i,k−1]Φpo(vi@li→...→vj@lj)\Phi_{\text{po}}(\pi) = \bigwedge\limits_{i \in [1, k-1]} \bigwedge\limits_{j \in [i, k-1]} \Phi_{\text{po}}(v_i@l_i \rightarrow ... \rightarrow v_j@l_j)Φpo(π)=i∈[1,k−1]⋀j∈[i,k−1]⋀Φpo(vi@li→...→vj@lj) 为语句偏序关系约束。
4.Evaluation
和FASM以及Saber进行了比较,采用了20个开源程序进行评估。
参考文献
[1].Yuandao Cai, Peisen Yao, and Charles Zhang. 2021. Canary: practical static detection of inter-thread value-flow bugs. In Proceedings of the 42nd ACM SIGPLAN International Conference on Programming Language Design and Implementation (PLDI 2021). Association for Computing Machinery, New York, NY, USA, 1126–1140. https://doi.org/10.1145/3453483.3454099