抽象语法树在JavaScript中的应用

网页设计
关注：9.26K次

抽象语法树是什么?在 JavaScript 中该如何应用?下面YJBYS小编为大家讲解!

在计算机科学中，抽象语法树(abstract syntax tree 或者缩写为 AST)，或者语法树(syntax tree)，是源代码的抽象语法结构的树状表现形式，这里特指编程语言的源代码。树上的每个节点都表示源代码中的一种结构。之所以说语法是“抽象”的，是因为这里的语法并不会表示出真实语法中出现的每个细节。1

果然比较抽象，不如先看几个例子：

　　抽象语法树举例

foo = 'hello world';

+-------------+

| assign(=) |

+-------------+

X X

+-------+ +-----------------+

| foo | | 'hello world' |

+-------+ +-----------------+

if (foo === true) {

bar = 'hello world';

alert(bar);

}

+------+

| if |

+------+

X X

+--------------+ +-------------+

| equal(===) | | if_body |

+--------------+ +-------------+

X X X X

+-------+ +--------+ +-------------+ +------------+

+-------+ +--------+ +-------------+ +------------+

X X X

+-------+ +-----------------+ +-------+

| bar | | 'hello world' | | bar |

+-------+ +-----------------+ +-------+

从上述两个例子可以看出，抽象语法树是将源代码根据其语法结构，省略一些细节(比如：括号没有生成节点)，抽象成树形表达。

抽象语法树在计算机科学中有很多应用，比如编译器、IDE、压缩优化代码等。下面介绍一下抽象语法树在 JavaScript 中的应用。

　　JavaScript 抽象语法树

构造 JavaScript 抽象语法树有多种工具，比如 v8、SpiderMonkey、UglifyJS 等，这里重点介绍 UglifyJS。

　　UglifyJS

UglifyJS 是使用最广的. JavaScript 压缩工具之一，而且自身也是用 JavaScript 写的，使用它的方法很简单(需要 nodejs 环境)：

首先全局安装：

[sudo ]npm install -g uglify-js

然后就可以使用了：

uglifyjs -m -o

关于 UglifyJS 的用法这里就不多介绍了，我们要做的是一些更有趣的事情。

　　UglifyJS Tools

UglifyJS 提供了一些工具用于分析 JavaScript 代码，包括：

parser，把 JavaScript 代码解析成抽象语法树

code generator，通过抽象语法树生成代码

mangler，混淆 JavaScript 代码

scope analyzer，分析变量定义的工具

tree walker，遍历树节点

tree transformer，改变树节点

　　生成抽象语法树

使用 UglifyJS 生成抽象语法树很简单：

首先安装 UglifyJS 为 npm 包：

npm install uglify-js --save-dev

然后使用 parse 方法即可：

var UglifyJS = require('uglify-js');var ast = e('function sum(foo, bar){ return foo + bar; }');

这样生成的 ast 即为那一段代码的抽象语法树。那么我们怎么使用呢?

　　使用 mangler 压缩代码

使用 mangler 可以通过将局部变量都缩短成一个字符来压缩代码。

var UglifyJS = require('uglify-js');var ast = e('function sum(foo, bar){ return foo + bar; }');

re_out_scope();

le_names();

(t_to_string());// function sum(a,b){return a+b}

　　使用 walker 遍历抽象语法树

使用 walker 可以遍历抽象语法树，这种遍历是深度遍历。

var UglifyJS = require('uglify-js');var ast = e('function sum(foo, bar){ return foo + bar; }');

re_out_scope();

(new Walker(function(node) {

(t_to_string());

}));/*

function sum(foo,bar){return foo+bar}

sum

foo

bar

return foo+bar

foo+bar

foo

bar

UglifyJS 已经提供了直接压缩代码的脚本，walker 看上去貌似也没啥用，那么这些工具有什么使用场景呢?

　　抽象语法树的应用

利用抽象语法树重构 JavaScript 代码

假如我们有重构 JavaScript 的需求，它们就派上用场啦。

下面考虑这样一个需求：

我们知道，parseInt 用于将字符串变成整数，但是它有第二个参数，表示以几进制识别字符串，若没有传第二个参数，则会自行判断，比如：

parseInt('10.23'); // 10 转换成正整数parseInt('10abc'); // 10 忽略其他字符parseInt('10', 10); // 10 转换成十进制parseInt('10', 2); // 2 转换成二进制parseInt('0123'); // 83 or 123 不同浏览器不一样，低版本浏览器会转换成八进制parseInt('0x11'); // 17 转换成十六进制

因为有一些情况是和我们预期不同的，所以建议任何时候都加上第二个参数。

下面希望有一个脚本，查看所有 parseInt 有没有第二个参数，没有的话加上第二个参数 10，表示以十进制识别字符串。

使用 UglifyJS 可以实现此功能：

#! /usr/bin/env nodevar U2 = require("uglify-js");function replace_parseint(code) {

var ast = e(code); // accumulate `parseInt()` nodes in this array

var parseint_nodes = [];

(new Walker(function(node){

if (node instanceof _Call

&& t_to_string() === 'parseInt'

&& th === 1) {

parseint_(node);

}

})); // now go through the nodes backwards and replace code

for (var i = parseint_th; --i >= 0;) { var node = parseint_nodes[i]; var start_pos = ; var end_pos = os;

(new _Number({

value: 10

})); var replacement = t_to_string({ beautify: true });

code = splice_string(code, start_pos, end_pos, replacement);

} return code;

}function splice_string(str, begin, end, replacement) {

return tr(0, begin) + replacement + tr(end);

}// test itfunction test() {

if (foo) { parseInt('12342');

} parseInt('0012', 3);

}

(replace_parseint(ring()));/*

function test() {

if (foo) {

parseInt("12342", 10);

}

parseInt('0012', 3);

}

在这里，使用了 walker 找到 parseInt 调用的地方，然后检查是否有第二个参数，没有的话，记录下来，之后根据每个记录，用新的包含第二个参数的内容替换掉原内容，完成代码的重构。

也许有人会问，这种简单的情况，用正则匹配也可以方便的替换，干嘛要用抽象语法树呢?

答案就是，抽象语法树是通过分析语法实现的，有一些正则无法(或者很难)做到的优势，比如，parseInt() 整个是一个字符串，或者在注释中，此种情况会被正则误判：

var foo = 'parseInt("12345")';// parseInt("12345");

　　抽象语法树在美团中的应用

在美团前端团队，我们使用 YUI 作为前端底层框架，之前面临的一个实际问题是，模块之间的依赖关系容易出现疏漏。比如：

('mod1', function(Y) {

('#button1')late('click');

(array, fn);

1 = function() {/**/};

}, '', {

requires: [ 'node', 'array-extras'

]

});

('mod2', function(Y) {

1(); // (uri, config);}, '', {

requires: [ 'mod1', 'io'

]

});

以上代码定义了两个模块，其中 mod1 模拟点击了一下 id 为 button1 的元素，执行了，然后定义了方法 1，最后声明了依赖 node 和 array-extras;mod2 执行了 mod1 中定义的方法，而被注释了，最后声明了依赖 mod1 和 io。

此处 mod1 出现了两个常见错误，一个是 simulate 是 otype 上的方法，容易忘掉声明依赖 node-event-simulate3，另一个是 y 上只有部分方法需要依赖 array-extras，故此处多声明了依赖 array-extras4;mod2 中添加注释后，容易忘记删除原来写的依赖 io。

故正确的依赖关系应该如下：

('mod1', function(Y) {

('#button1')late('click');

(array, fn);

1 = function() {/**/};

}, '', {

requires: [ 'node', 'node-event-simulate'

]

});

('mod2', function(Y) {

1(); // (uri, config);}, '', {

requires: [ 'mod1'