Java：java精神（基于函数式组合子逻辑的java parser框架）

热点排行

java精神（基于函数式组合子逻辑的java parser框架）

类别：Java 点击：0 评论：0 推荐：

一。释名。
为什么叫精神？
如果你熟悉c++，那么你可能知道一个叫做”spirit”的parser库。它利用c++的模板元编程能力，使用c++语言本身提供了一个递归下降文法解析的框架。

我这里介绍的jparsec库，就是一个java里面的递归下降文法解析框架。
不过，它并非是spirit的java版本。
Jparsec的蓝本来自Haskell语言的parsec库。Parsec是一个基于monad的parser组合子库。

这个库的目的是要在java中提供一个类似parsec, spirit的库，这种组合子库并非c++的专利，java/c#也可以做到。这个库还将在java5.0上被改写，类型安全上它将也不再逊色于c++。

那么，为什么叫“函数式”呢？java是面向对象的嘛。
如果你使用过haskell, lisp等语言，这个函数式不用解释你也知道是怎么回事了。
如果你是一个老牌的c++/java程序员，那么这里还要稍微解释一下。当然如果您对这些虚头八脑的名词不感兴趣，那么，你尽可以跳过这一章，不知道什么是“函数式”，并不会影响你对这个库的理解的。

C++这几年随着gp的普及，“函数式”这个老孔乙己逐渐又被人从角落里面拽了出来。一个c++程序员所熟悉的“函数式”很可能是stl的for_each, transform，count_if这些函数。
怎么说呢，就象我不能否定str.length()这个调用属于OO一样，我也无法说for_each, transform不是函数式。
但是，“函数式”的精髓不在于此。
一般归纳起来，就像我们说OO是什么多态，封装，继承一样，“函数式”的特征被总结为：
1。无副作用。
2。高阶函数。
3。延迟计算

而最最有意义的（至少我认为如此），是基于高阶函数的函数组合能力。一些人把这叫做glue。
简短地说，什么让函数式编程如此强大？是用简单的函数组合出复杂函数的能力。

我可以想象，说到这里，你还是一头雾水。“什么是组合？1+1不是也把两个1组合成2了吗？new A(new B(), new C())不也是从B和C组合成A了？”

为了直观，我们来举个例子吧。
假设，我们在package predicates内部有一个接口：
<code>interface SPredicate{
boolean is(String s);
}</code>
我们有几个基本的实现：
<code>class IsEmpty implements Spredicate{
public boolean is(String s){return s.length()==0;}
}</code>
这个实现判断字符串是不是空。

<code>class IsCaptialized implements Spredicate{…}</code>
这个实现判断这个字符串是不是大写打头。

<code>class IsLowercase implements Spredicate{…}</code>
这个实现判断字符串是不是全小写。

<code>class IsEqual implements Spredicate{
Private final String v;
Public Boolean is(String s){return s.equals(v);}
IsEqual(String v){this.v = v;}
}</code>
这个实现判断这个字符串是否和制定的字符串相等。

类似的基本实现还可以有很多。

下面，假如我们希望实现一个Spredicate，它要判断“这个字符串是个小写字符串，或者等于hello”。
我们怎么办呢？
我们当然可以这样：
<code>class Predicate1 implements Spredicate{
Boolean is(String v){
Return v.isLowercase() || v.equals(“hello”);
}
}</code>
只不过，这样一来，我们没有重用IsEqual和IsLowercase这两个类的代码，虽然逻辑上我们是和这两个类有重叠。

我们当然也可以直接调用IsEqual和IsLowercase的代码，如：
<code>class Predicate1 implements Spredicate{
Boolean is(String v){
return new IsEqual().is(v) || new IsLowercase().is(v);
}
}</code>
只不过，这样的代码是过程式的，非常死板。
如果我再有一个IsEqual或者IsCapitalized的逻辑呢？还要再写一个Predicate2类么？
如果你OO有一定功底，一定可以看出，这个代码不符合IOC原则，在不该new的地方new了。

好，知错就改，根据IOC原则，我们重构如下：

<code>class OrPredicate implements Spredicate{
private final Spredicate p1;
private final Spredicate p2;
public Boolean is(String s){
return p1.is(s) || p2.is(s);
}
}</code>
构造函数我就不写了。
如此，Predicate1我们就可以写成<code>new OrPredicate(new IsLowercase(), new IsEqual(“hello”));</code>
类似的，我们可以加上AndPredicate, NotPredicate, XorPredicate.
这样，基本上就可以覆盖所有的布尔操作了。

我们在写我们自己的Predicate的时候，就根本不必写is函数，甚至可以忘记is函数的存在。我们面对的不再是一个有着一个boolean is(String)签名的接口，而是一个可以通过各种规则组合的类型。

一个Predicate可以简单如new NotPredicate(p)，也可以复杂如：
<code>new AndPredicate(new OrPredicate(a,new XorPredicate(b,c), d));</code>

擦擦眼睛，现在，我们等于自己制造出一个可以用一些特定规则组合的类型，而Spredicate的签名甚至都不再重要了。我们的客户程序从操作字符串变成了操作各种Spredicate对象，这已经是更高一级的抽象了。

为了表现这一点，让我们把Spredicate改成abstract class, 并把is()函数改成包私有（这样我们外面的用户程序就再也看不到这个函数了）。

等等！你可能发现了，现在我们虽然可以自由组合不同的Spredicate对象，但是组合之后有什么用呢？is函数看不见了，难道我们就是为了组合而组合吗？
不错，一个完整的组合子，还缺最后一小块。

让我们在predicates包内部再加上一个utility函数：
<code>public Boolean runPredicate(Spredicate p, String s){
Return p.is(s);
}</code>
好了，功德圆满，我们可以用这个runPredicate函数来执行一个组合好了的Spredicate对象，而不用关心这个对象内部的is函数。

你可能有点怀疑。RunPredicate(p, s)和p.is(s)有什么区别？

呵呵，现在是没什么区别。下面我们来看看什么时候这种封装有明显的好处。
假设根据实现需要我们的Spredicate.is函数不是现在看到的这么简单，它可能是：
Boolean is(String s, PredicateContext ctxt);
PredicateContext对象负责存储并传递一些包局部的信息。
此时，我们很有可能不希望把这个签名对外公布。因为这个签名非常有可能变化，它是一个包的实现细节。PredicateContext甚至都是个包私有的类型。

此时，把is函数隐藏起来就是必要的了。对外，我们只公开一个runPredicate工具函数：

<code>public Boolean runPredicate(String s, Spredicate p){
final PredicateContext ctxt = new PredicateContext();
return p.is(s, ctxt);
}</code>

好，现在客户程序可以随意组合各个Predicate对象，最后用runPredicate函数运行。而包内部在演化时，完全可以根据需要随时改动is函数的签名，增加新的状态。

这，就是一个完整的组合子的例子。

有个比喻，基于过程的编程方法（比如fortran的方法），就象建造金字塔，你要从地基打起，一步一步向上修建，其中任何一步都不能失败。而金字塔一旦修好，就一直矗立在那里，风雨不变了。
而基于函数组合的编程方法，就象有机体的演化，每个小函数都是一个小的有机体，是个细胞，不同的细胞之间通过一些规则组合起来形成更大的有机体。如此往复，直到演化成足够复杂强大的有机体。而有机体的演化永远不会停止。这个过程等同于一个公理系统。一个欧几里得几何，就那么五个简单的公理，但是逐步推演，引理，定理，再定理，最终建立起了宏伟自恰的几何大厦。
过程式和函数式都是自底向上的解决问题方法，都要从最小的单元开始。区别在于函数式提供了不同单元之间灵活的组合能力。

面向对象的方法呢，则是一个自顶向下的分析问题方法。它着眼的不再是如何解决问题，而是这个问题怎样分解成子问题，每个子问题由谁负责的一个更加“人性”，“政治性”的方法论。
用人类社会或者公司的运作也许更能描述面向对象的思想。总统，ceo也许不懂编程序，不会看门，扫地，但是这不妨碍他们通过层层的分工调遣协作，让整个公司或者社会运行的井井有条。

好了，说到这里，我也口吐白沫了。你也许还在挠头，或者早已冲冲大怒：什么乱七八糟神神道道的，我看你象个江湖骗子！

好吧，看懂了当然好，看不懂也没有关系的。我们的目的不是贩卖一些似是而非的比喻来故作高深。只要后面具体的例子能说明怎么使用parsec库来做parser，那么实际的目的就达到了，谁在乎它到底叫什么呢？

二. parser的背景知识
先介绍一下产生式吧。
一个语法，可以用一系列产生式来表示（也就是BNF或者EBNF了）
比如，一个数字可以表示为：
number ::= ([0-9])+ （就是一个或多个0和9之间的字符）

一个c++/java中的变量名可以表示为：
alphanum ::= [_a-zA-Z] ([0-9_a-zA-Z])* （就是第一个字符是下划线或者字母，后面跟着0或者多个下划线，字母或者数字）

一个四则运算的运算符可以表示为：
<code>op ::= ‘+’ | ‘-‘ | ‘*’ | ‘/’</code>

而四则运算表达式则可以用一系列产生式表示：
<code>term ::= number | ‘(‘ expr ‘)’
signed ::= （’+’ | ‘-‘)? signed
muldiv ::= muldiv (‘*’|’/’) signed
expr ::= expr (‘+’ | ‘-‘) muldiv</code>

学过编译原理的，都知道parser分为top-down，bottom-up两大类。Bottom-up的parser有LR, LALR等，主要是分析产生式，然后根据分析的结果建立一个表，一个状态机。parser运行时读入一个字符，在表中查找下一步的动作。
Bottom-up的方法效率高，而且没有左递归的问题。
但是这类parser书写繁琐，代码的可读性，可维护性很差，调试起来也非常困难。

Top-down则反过来，从每个产生式出发，递归地判断当前读入的字符满足哪个产生式。这种parser叫做递归下降。

递归下降的一个问题是，读入一个字符，可能匹配不止一个产生式，此时对这种二义性的解决。
而更致命的问题，是左递归问题。
比如上面的四则运算表达式的产生式, expr就是一个左递归的产生式。
如果parser当前在试图parse expr, 那么为了parse expr, 它必须先parse它产生式右侧的第一个节点，而这个节点还是一个expr，这样parser就陷入了无穷递归。

递归下降的好处是：
代码容易写，易于理解，也容易维护。

不过，现实工作中，人们很少自己手工写bottom-up的parser（除非是对效率有非常高要求的工业强度的parser产品）。
往往大家都会选择用一个parser generator，比如yacc, JavaCC, ANTLR等。

使用这些parser generator，你只需要按照这个工具提供的语法来直接书写你的EBNF，然后这些工具会根据你提供的语法来生成parser 代码。（这个代码可以是bottom-up的，也可能是top-down的）

使用这些parser generator的好处是：
它节省了手工书写parser的时间，你只需要声明式地写出你需要的EBNF产生式，由专家实现好的generator就可以帮你生成最优化的代码。
这种生成的代码，效率仅仅比一个精通parser的人精心编写的手工parser稍逊。（注意是“精心”编写的，我手工写的parser肯定是没有generator生成出来的快的）

而维护上，你的语法如果有变化，只需要修改语法文件，然后用生成器重新生成一遍目标代码即可。

但是，parser generator也有一点点不足：
1。生成的代码往往不容易懂。如果你的语法有错，语法文件本身是不能debug的，而跟踪进生成的代码，跟读天书也差不多。
2。你需要提供语法文件。也就需要学习这个parser generator的各种规定，因为这个语法文件的写法完全是这个parser generator规定的。这个学习曲线也不可忽视。
3。有一个额外代码生成的步骤，发布，维护都略嫌繁琐。
4。有时候，项目中只需要处理一些简单的表达式evaluate之类的任务，用java.util.StringTokenizer有点不够，用parser generator又有点杀鸡用牛刀的感觉。
5。Parser generator往往只处理静态的语法。所有的产生式，优先级都要在语法文件里静态写好。很难处理在运行时修改语法的任务。
6。EBNF和目标语言（如java/c++) 不能很好的结合。很难对语法和语义动作进行代码重用。

由于这些问题，一种叫做”parser combinator”的技术被人们提了出来。
Combinator不同于generator。它完全基于目标语言，不生成任何代码。所以也就没有那个额外的代码生成的步骤。而且，因为parser完全用目标语言写，你也就可以利用目标语言里面所有的语言特性，而不必被局限于某个parser generator所提供的有限的表达功能。
Combinator是基于递归下降的一种parser技术。不同于传统的手写递归下降的过程形方法，combinator是一个函数形的方法。
一个combinator库往往提供很多的组合子，用来从已有的parser构造出新的parser出来。比如，ebnf的*, +, ?等符号，都可以被实现为一个一个的组合子。而这些库提供的组合子可都比ebnf那有限的几个符号丰富得多了。

用户程序关心的是根据逻辑组合各种parser对象，而不是递归调用一个一个的parse函数。这个动作是由这个combinator框架来完成的。

代表性的parser combinator库有c++的spirit库，有haskell的parsec库。我们这个库就脱胎于parsec库。

这些combinator库都提供了动态parser的能力，突破了parser generator和手工递归下降只能处理静态文法的限制。

我们后面会看到这种动态文法的一个非常有用的应用（算符优先文法）

combinator方法的问题：
1，效率低。其实这是递归下降方法固有的问题。
2。左递归。这还是递归下降方法的问题。
3。因为目标语言往往不是一个为表达产生式专门设计的语言（而是一个通用语言），所以对有些ebnf的表达就不是很直接，读起来往往不如读语法文件那样一目了然。
4。语言之间的移植性。用parser generator的话，它往往可以把一个语法文件翻译成若干种不同的目标语言。而parser combinator完全依赖于目标语言，如果你半途忽然决定更换语言，那么你的parser combinator的代码就白写了。
5。Combinator方法基于高阶组合子逻辑。作为更高一层的抽象，这种函数式的思想方法往往不如parser generator直观，容易理解。

好了，介绍完parser的背景知识，让我们落下云头，来看看这个jparsec库吧。

三． Jparsec的使用。
首先，我们看scanner。
Jparsec的scanner负责读入字符输入，识别输入是否符合语法。

比如对于number，
产生式我们前面已经写了，number ::= ([0-9])+,
我们可以写成Scanner number = Scanners.charRange(‘0’, ‘9’).many1();
这里， Scanners.charRange(‘0’, ‘9’) 就是[0-9]。
charRange()产生一个Scanner对象。这个对象识别一个字符，这个字符必须在0和9之间。
many1()是个组合子，表示前面写好的那个”+”。
Scanners.charRange(‘0’,’9’).many1()就表示1个以上的数字。

实际上，Scanners类里面已经预定义了一个对应整数的scanner: isInteger()。

再看java的变量名，
<code>alphanum ::= [_a-zA-Z] ([0-9_a-zA-Z])*</code>
[_a-zA-Z]可以写成：<code>Scanners.plus(Scanners.isChar(‘_’), Scanners.charRange(‘a’,’z’), Scanners.charRange(‘A’,’Z’))</code>
Scanners.isChar() 负责识别一个字符，Scanners.isChar(‘_’) 负责识别下划线。
Scanners.charRange(‘a’,’z’) 和Scanners.charRange(‘A’, ‘Z’) 负责识别小写字符和大写字符。
Scanners.plus() 表示“或”的概念。Scanners.plus(a,b,c)表示或者a，或者b，或者c。
所以Scanner alpha = Scanners.plus(Scanners.isChar(‘_’), Scanners.charRange(‘a’,’z’), Scanners.charRange(‘A’,’Z’)) 就代表[_a-zA-Z]。

而[0-9_a-zA-Z] 就是在alpha的基础上再多一个数字。
<code>Scanner alphanum = Scanners.plus(Scanners.charRange(‘0’,’9’), alpha);</code>
所以，alphanum可以表示为：
<code>Scanner varname = alpha.seq(alphanum.many());</code>
Scanner.seq()函数是个表示“顺序”的组合子。Scanner s = a.seq(b)就相当于
S ::= a b
所以alpha.seq(alnumnum.many)就相当于alpha alphanum*。

同样，Scanners类里面对alphanum预定义了isAlphaNumeric() 函数。
对varname也预定义了isWord() 函数。

那么，一个四则运算的运算符呢，很简单了吧？
<code>Scanner op = Scanners.plus(Scanners.isChar(‘+’), Scanners.isChar(‘-‘), Scanners.isChar(‘*’), Scanners.isChar(‘/’));</code>

下面再来看parser。
Parser不同于Scanner。一个Scanner只负责识别输入的字符串是否match，而不返回任何数据。
Parser则不同，它除了识别输入的token流，报告match成功还是失败，还要根据输入返回对象。
所有的Parser相关的组合子和基本Parser都定义在Parsers类中。

下面先简要介绍一下基本的parser 组合子：
1． retn(Object v)， retn 不识别任何输入，仅仅返回一个对象v。
2． one(), one也不识别任何输入，但是它永远报告match成功。
3． zero(), zero不读入任何输入，但是它永远报告失败。
4． token(), token() 读入一个token, 判断这个token是否符合某个要求，如果符合，则报告成功。
5． plus()，有若干个针对不同个数参数的重载版本。和Scanners.plus() 类似，也表示“或者”的概念。它相当于EBNF里面的“|”符号。
6． seq(), 表示顺序，Parser p = p1.seq(p2) 等价于 p ::= p1 p2。P2返回的对象就作为p的返回对象。
7． map2, map3, …, map5, map它顺序执行若干个Parser对象，把这些Parser对象的返回结果传递给一个Map2, Map3, …, Mapn对象，转换成一个新的对象。
8．optional(). optional()代表EBNF里面的”?”。Parser p1 = p.optional() 就相当p1 ::= p?
9．many()。p.many() 相当于 P*。
10．many1()。p.many1()相当于P+。

下面，我们来看看怎么对付这个四则运算表达式。
<code>term ::= number | ‘(‘ expr ‘)’
signed ::= （’+’ | ‘-‘)? signed
muldiv ::= muldiv (‘*’|’/’) signed
expr ::= expr (‘+’ | ‘-‘) muldiv</code>

在写这个表达式parser的时候，我们还有几个困难要处理。
1．左递归。muldiv和expr的产生式都带有左递归。这是因为加减法，乘除法都是左结合的。1-1+2应该是(1-1)＋2, 而不是1-(1+2)。
对这种左递归，jparsec框架有预定义的组合子infixl。所谓infixl就表示中缀左结合操作符。
Muldiv 就可以表示为： Parser muldiv = Parsers.infixl(op_muldiv, signed);
Expr就可以表示为：Parser expr = Parsers.infixl(op_addsub, muldiv);
关于op_muldiv, op_addsub我们等一下再解释。现在我们只要知道op_muldiv对应乘除法操作符。op_addsub对应加减法操作符就可以了。
2．循环依赖。Term的产生式依赖expr, 而expr的产生式又间接依赖着term。对这种循环依赖，需要用lazy组合子来打破这个循环依赖。
3．递归。Signed的产生式不是一个左递归，但是仍然是递归。我们固然可以用递归来处理这个产生式，但是，jparsec框架早就提供了预定义的prefix组合子，signed可以表示为：
<code>Parser signed = Parsers.prefix(op_positive_negative, term);</code>
也就是说，signed是一个term前面有若干个正负号。

下面我们来看看我们第一版的四则运算parser。

<code>final Parser lazy_expr = Parsers.lazy(new ParserEval(){
public Parser eval(){return expr();}
});
final Parser term = Parsers.plus(number, Parsers.between(lparen, rparen, lazy_expr));
final Parser signed = Parsers.prefix(op_positive_negative, term);
final Parser muldiv = Parsers.infixl(op_muldiv, signed);
final Parser expr = Parsers.infixl(op_addsub, muldiv);
Parser expr(){return expr;}</code>

这里的lazy_expr就是为了打破循环依赖引入的。Parsers.lazy()组合子接受一个ParserEval对象。ParserEval对象负责把一个Parser对象的求值延迟到实际parser运行的时候。

好，这样，一个四则运算的parser就算搞定了。

但是，这个parser, 要求我们手工地根据运算符的优先级和结合率来写产生式。消除左递归虽然有框架的infixl帮忙，程序员仍然需要分析考虑这个问题，并且正确地调用infixl。

其实，根据结合率和优先级来产生产生式和调用infixl, infixr, infixn, prefix, postfix这些组合子，都可以被自动化。

框架预定义了一个Expressions类和一个OperatorTable类，就实现了这样的一个算符优先文法。
Expressions类作为jparsec的核心Parsers类的用户代码，使用的完全是标准的jparsec的组合子。这也说明，应用parsec组合子，客户完全可以构建自己的更方便的增值库。

下面看看使用Expressions类，我们怎样实现四则运算。

首先，定义每个操作符的优先级：
正负号的优先级最高，先定义为100；
乘法，除法的优先级次之，为80；
加法，减法的优先级最低，为50。
同时正负号为前缀运算符，加减乘除为中缀左结合运算符。

然后根据这个信息生成一个OperatorTable对象：

<code>OperatorTable ops = new OperatorTable()
.prefix(op_positive, 100)
.prefix(op_negative, 100)
.infixl(op_add, 50)
.infixl(op_sub, 50)
.infixl(op_mul, 80)
.infixl(op_div, 80);</code>

完全的声明式编程，这里面我们不再担心左递归啦，产生式啦，就是一门心思声明优先级和结合率。

然后，使用Expressions类来构建Expression的parser:
Parser expr = Expressions.buildExpressionParser(ops, term);

完整的代码如下：
<code>final Parser lazy_expr = Parsers.lazy(new ParserEval(){
public Parser eval(){return expr();}
});
final Parser term = Parsers.plus(number, Parsers.between(lparen, rparen, lazy_expr));
final OperatorTable ops = new OperatorTable()
.prefix(op_positive, 100)
.prefix(op_negative, 100)
.infixl(op_add, 50)
.infixl(op_sub, 50)
.infixl(op_mul, 80)
.infixl(op_div, 80);
final Parser expr = Expressions.buildExpressionParser(term, ops);
Parser expr(){return expr;}</code>

至于number, lparen, rparen, op_add, op_div等等终结符，另外有一个Terms的辅助类，可以帮助生成这些终结符的parser：

<code>private final Terms words = Terms.getOperators(new String[]{
“+”, “-“, “*”, “/”, “(“, “)”
});
private final Map2 add = new Map2(){
public Object map(final Object o1, final Object o2){
    return new Long(((Number)o1).longValue() + ((Number)o2).longValue());
}
};
private final Map2 sub = new Map2(){
public Object map(final Object o1, final Object o2){
    return new Long(((Number)o1).longValue() - ((Number)o2).longValue());
}
};
private final Map2 mul = new Map2(){
public Object map(final Object o1, final Object o2){
    return new Long(((Number)o1).longValue() * ((Number)o2).longValue());
}
};
private final Map2 div = new Map2(){
public Object map(final Object o1, final Object o2){
    return new Long(((Number)o1).longValue() / ((Number)o2).longValue());
}
};
Private final Map positive = Maps.id();
private static final Map negate = new Map2(){
public Object map(final Object o){
    return new Long(-((Number)o).longValue());
}
};
private Parser make_op(final String op, final Map2 m2){
return words.getParser(op).seq(retn(m2));
};
private Parser make_op(final String op, final Map m){
return words.getParser(op).seq(retn(m));
};
private final Parser op_add = make_op(“+”, add);
private final Parser op_sub = make_op(“-“, sub);
private final Parser op_mul = make_op(“+”, mul);
private final Parser op_div = make_op(“-“, div);
private final Parser op_positive = make_op(“+”, positive);
private final Parser op_negative = make_op(“-“, negate);</code>

所有这些Map2, Map，如add, sub, mul, positive等等，都是根据不同的运算符进行的不同的语义动作。

如此一来，一个完整的四则运算器就诞生了。

具体代码，请参看测试代码中的TestParser类。另外，TestSqlParser是一个non-trivial的sql select语句的parser，你可以看到更完整的对parsec的使用。

下载连接是：
http://sourceforge.net/project/showfiles.php?group_id=122347

本文地址：http://com.8s8s.com/it/it12879.htm

Java：java精神 （基于函数式组合子逻辑的java parser框架）

java精神 （基于函数式组合子逻辑的java parser框架）

Java：java精神（基于函数式组合子逻辑的java parser框架）

java精神（基于函数式组合子逻辑的java parser框架）