C/C++中的怪异语法

类别:编程语言 点击:0 评论:0 推荐:

         首先声明本文是从写编译器的角度来讨论问题的,如果是写其他程序,那么讨论这些问题是很无聊的,和讨论“i+++++i”等于几一样无聊。

        最近想把以前写过的一个c语言子集的解释器重新实现一下,让它支持更多的语法,同时更好的理解一下编译原理。 语法分析和语义分析我不敢奢望,但在相对简单的词法分析上,我希望它能达到一个商业编译器的水平。所以也就开始抱着我的vc.net研究起它的语法细节来。

       1. 字符:我一直认为定义字符常量的单引号中只能有一个字符,可现在却让我发现'abcd'也是合法的,换句话说,其中可以有任意多个字符。不过我真的很怀疑c/c++支持这个有什么实际用处。不错!int a = 'abcd';相当于:int a = (((int)'a')<<24)+(((int)'b')<<16)+(((int)'c')<<8)+'d'。但这并不等于你能用它来从单个的字符构造整数,因为它是平台相关的!x86上用的很好,可能拿到别的平台上就要莫名其妙的出错误了。而且它在Unicode和multibytes下的效果也不同,不信你用下面的代码在vc中分别用unicode和multibytes编译一下就知道了:int a = _T('ab');

      字符常量中还有一点是对8进制转义字符和16进制转义字符的匹配,看下面的正则式就知道了:8进制:\\[0-7]{1,3},而16进制是:\\x[0-9a-zA-Z]+。真不知道为什么8进制最多支持3个,而16进制却能支持无限多。

     2.续行符:以前知道字符串可以这样写:char str[]=“abcdefg”

 “hijklmn”;也知道这给写长字符串带来了极大的方便,也知道“\”可以在定义宏时加载行末,表示下一行仍是宏的内容。但没想到“\”是一个真真正正的续行符,在vc中你甚至能有它把关键字截断,而不出语法错误,如:

in\

t a = 123;

相当于:int a=123;真不知道实际编程中谁会这么用!而且在单行注释中这点也不会变:如下:

//this line is comment\

this line is comment too

但在多行注释中,就又没用了,真tmd

/*this line is comment *\

/this line is comment too, and the next line.....

不好意思,红色部分的内容我弄错了,它欺骗了编辑器的语法加亮功能,不过没有欺骗编译器。

     只研究了一下词法分析,就出了这么多意外,不知道语法分析时还有多少!

 

本文地址:http://com.8s8s.com/it/it28481.htm