Python 静态分析相关论文

前言

翻了几篇 Python 静态分析相关的论文，看看有什么比较好的分析工具。

静态分析工具

1. Survey on Static Analysis Tools of Python Programs

SQAMIA 2019

概述了 Python 代码库静态分析的现有方法和工具，并介绍了一些新的研究方向。

总结了常见的 Python 静态分析工具之间的关系，简单介绍了（几行概述） Pylint、Pyflakes、flake8、Frosted、Pycodestyle、Mypy、PySym、PyExZ3。

设计并测试了 6 种典型的逻辑漏洞（logical errors），用 PyLint、Pyflakes、Flake8、Mypy、Frosted 检测

使用默认配置
逻辑错误会产生意外的输出或结果，但不一定会导致崩溃

引用未定义变量

import sys
message = "Hello there!"
if "greetMe" in sys.argv:
	print(mesage) # 变量名打错
print("This code is fine, no problems.")

太多位置参数

import sys # 未使用的导入

class Person:

    def __init__(self, first_name, last_name, age):
        self.first_name = first_name
        self.last_name = last_name
        self.age = age

    if "Windows" in platform.platform(): # 未定义的 platform 变量
    	print("You’ re using Windows !")

    self.age = self.getAge(1, 2, 3) # 太多位置参数

    def getAge(this): # 没有 self 参数
        return "18"

传递类型错误的参数

def sum(x:int, y:int): # 类型注释
    return x + y
print(sum(3, 4))
print(sum(3, "4")) # 传递错误类型的参数

引用不存在的类属性

class Person():
    def __init__(self, name, age):
        self.name = name
        self.age = age
PERSON1 = Person("Hristina", 23)
print(PERSON1.age)
print(PERSON1.height) # 引用不存在的属性

调用嵌套函数

def outer():
    x=3
    def inner():
        print(x)
    inner()
outer()
inner() # 调用 outer 内部定义的函数

闭包错误

# 闭包
def outer():
    x = 3
    def inner():
        y = 3
        result = x + y
        return result
    return inner

a = outer()
print(a()) # 调用 inner()
print(a.__name__) # 打印 inner

# 闭包错误，非预期结果
def greet(greet_word, name) :
	print(greet_word, name)
greeters = list()
names = ["Kiki", "Riki", "Joe"]
for name in names:
	greeters.append(lambda x : greet(x, name))

for greeter in greeters:
	greeter("Hi")
# 打印
# Hi Joe
# Hi Joe
# Hi Joe

2. Towards More Sophisticated Static Analysis Methods of Python Programs

Informatics 2019 • IEEE 15th International Scientific Conference on Informatics

和上一篇同样的作者，探讨了为 Python 开发更强大的静态分析工具的可能研究方向。

总结现有的静态分析方法：模式匹配、AST 匹配、符号执行、混合执行。对比基于 AST 的 Pylint 和实验性的符号执行工具 mini-mc（使用 Z3 约束求解器的 Python 接口）

4 个代码片段测试 mini-mc 的检测能力，其中 2 个片段用于比较

	Pylint	mini-mc
引用未定义变量	x	√
可能的除零异常（误报）	x	√

引用未定义变量

def func(arg):
    if(1== arg):
        print("branch11 ", os.getpid())
        z = 1
    if (1!=arg):
        print("branch21 ", os.getpid())
        x = z

arg = BitVec(arg, 32)
func(arg)

可能的除零异常

def func(arg):
    if arg == 41 :
    	print("branch21 ", os.getpid())
    else:  # 输入为 42 时确实会引起异常，但其他情况下没有问题
        print("branch22 ", os.getpid())
        z = arg - 42
        z = 99 / z

3. Static Value Analysis of Python Programs by Abstract Interpretation

NASA Formal Methods Symposium

通过 抽象解释 推断变量类型、运行时错误和未捕获异常，只支持一小部分内置对象和标准库的分析。

调用图工具

1. Empirical Study of Python Call Graph

2019 34th IEEE/ACM International Conference on Automated Software Engineering (ASE)

对现有的 Python 程序调用图生成工具进行比对（Pyan、Code2flow、Pycallgraph、Understand），以 Pycallgraph 作为基准，用常见的模块源代码进行测试（scikit-learn、theano、networkx、numba、joblib、pandas）

Pyan、Code2flow、Pycallgraph（6 年前停更）：Github 开源工具
Understand：商业软件

针对 pandas 模块，各个工具生成的隐式节点数目有所不同，这造成了结果的巨大差异。

结论：现有的 Python 静态调用图工具在构建效果上存在较大差异，仍有改进的空间。

2. PyCG: Practical Call Graph Generation in Python

2021 IEEE/ACM 43rd International Conference on Software Engineering (ICSE)

提出了一种实用的、静态的 Python 调用图生成方法。涉及上下文敏感的过程间分析，不动点迭代算法等。没有分析循环和条件语句，也不使用变量类型信息，只能分析有源码的模块。

编写如下 crypto 模块进行测试：

import cryptops

class Crypto:
    def __init__(self, key):
        self.key = key

def apply(self, msg, func):
	return func(self.key, msg)

crp = Crypto("secretkey")
encrypted = crp.apply("hello world", cryptops.encrypt)
decrypted = crp.apply(encrypted, cryptops.decrypt)