大学书信选2(关于自然语言处理)

类别:软件工程 点击:0 评论:0 推荐:

简序:

    大学的快乐,有很大一部分来自自由思索的快乐,来自向专家学习、来自交流的快乐。

    比如,我最喜欢罗素的观点,他成了我人生的坐标,所以一直以来我也愈加的喜欢数学与科学,关注民生与自由,我相信对于我的青年时期,这将是永可怀念的!

    还有很多的老师,往往是一次课,让我永远的记住了他们。大一时期的张晓庭先生,精彩的统计课程讲座与人生观点,大三时期的赵致琢先生,对于计算机科学理论的阐述,还有康立山老师的智能计算课程,我们学校的蔡老师、薛老师、姚老师的鼓励,我都永远的记在心中。

    暑假期间,就开始了另一次愉快的经历。我认识了做自然语言处理的晋耀红先生,并开始接触HNC理论。这个理论非常有意思,它打破了我原来基于数学结构的思维形式,HNC理论的创始人黄曾阳先生对于汉语言的处理思路,可以给人丰富的启示。

    下面这封email,就是和晋耀红先生(我一直称他为晋老师)的一次交流。当然,信中的观点或许有许多错误,可是,在这样的学习中,也只能用“快乐”两个字来形容了。

 

    祝愿所有的大学生朋友,在你们的大学生活中,能尽情陶醉于思索与交流的快乐中!

 

                                                               percylee

                                                 2003-10-15 于武汉

 

--------------------------------------------------------------------------------------

晋老师:

您好!来信收到,十分感谢您的鼓励!当然,作为一个本科生,客观的讲,我的欠缺还是很多的,可是我也很高兴的发现,我越来越喜欢这个领域,所谓竟找到一生欲成就的梦想,欢乐也是难以表达的。

我很愿意到贵研究院去工作;并愿意全力争取面试乃至成为一员的机会!说起来原因也很简单,首先,HNC理论很有魅力,这是一项有意义的事业;其次,我相信相应的软件开发团体也一定是生机勃勃,当是很好的成长之所;最后,从我个人出发,虽然我较多的精力用在学习软件开发上,但对于基础理论与数学的热爱,使我更愿意选择一个具有研究性气氛的工作场所,咱们的研究院当然是我首选的(我目前还不想读研究生,从小学到大学一直呆在学校中,我想痛快的工作几年!)。

当然,我对工作中的难度是有所预感的。由于前一段时间一直忙于《SAT问题研究》的结题(我的一个校级项目)和演化证明思路的整理,没有能够继续HNC理论的学习,可是潜意识里仍时时记得她。那日里在图书摊点上浏览,遇到一本哲学书籍《人论》,它所讨论的人是建立在符号系统上的。原则上我更喜欢罗素的观点:),可是翻阅它我一下子想到了HNC理论的哲学假设,从一个已存在的概念模型出发,来构造复杂的系统讨论对于自然语言的理解和处理。所以我就买了这本书,虽然我不太同意它的看法,可却认为HNC理论的假设是合理的,我想看看翻阅它是否能给我一些启示。

系统的接触人工智能,是在学校的课程中,后来就是两个方向,一是读张景中先生的《数理逻辑与机器证明》,对机器证明产生兴趣,一是去听我们康老师的课(他为研究生和青年教师开的课),演化计算与并行计算,两个学期后,喜欢上了智能计算。但上个学期,偶然的机会,我接触了自然语言理解与处理,从天津海量科技里了解了他们的分词技术,并在他们的网站上看了他们的在线分词效果。听他们说分词是自然语言理解与处理的瓶颈,从此我也开始想这个问题,的确非常难,因为从思路来讲,我是黄先生批评的数学家(逻辑、统计派)那一类:),用之于自然语言的理解和处理,总感觉十分的不“自然”了。后来就是暑假里认识了您,并开始了解HNC理论。

现在想来,首先是这个哲学假设,即语音或文字表达的内容在大脑中并不是以自然符号系统的形式存在,而是以概念符号系统的形式存在。这个概念符号系统假设,当是理论的基石。事实上,自然语言,应该是人类描述信息(物质的和意识的)的一个完备集合。而要用计算机理解和处理它,则是要创建一个符号系统,可以与自然语言做很好的映射,这不仅包括元素的映射,更重要的是其与自然语言的相互作用和所含信息量,也能得到很好的映射,这样才方便进行双向处理。而传统的技术,如语法分析,可以认为是处理自然符号系统,这个系统对元素的映射还是可以的,但它处理自身与“自然语言的相互作用与所含信息量”的映射相当蹩脚,诸如“主谓宾”之类是语言的习惯意义上的一般约束,可以作为初步的语言结构合法性判断,但了解自然语言的含义,我觉得人类从来不会自觉的运用它!同样的,基于统计也是如此。

那么,人类是如何处理自然语言的呢?比如下面的一句话:

在广阔的空间里,她自由自在的飞翔……

就谈这个“空间”,我看到这个词,没有分析它的语法位置,更不会检索它的概率意义,事实上我的大脑中也没有这样的储备。如果是中学时代,我的反映肯定是朴素的三维空间,我太熟悉这个了,我一下子想到长、宽、高,想到运动;而现在,在物理意义上的空间概念上,我还能在第一时间里反映出我最喜欢的代数中的空间概念,我想到一个广阔意义上的空间概念。然后我才放到句子中,这才是我的理解过程!这说明,事实上,做一个更为基本的假设是可行的,即HNC理论的概念符号系统假设。

这个假设,使得我们创建完善的概念符号系统成为方向。我能隐约感觉到,这个系统应该是可以很好的完成其与“自然语言的相互作用与所含信息量”的映射。只要层次得当,变化规则保留得当,我对“空间”的理解过程,应该可以在这个系统中得到很好的反映。如果两个结构看作宽泛的代数结构的话,我们则希望这个映射是类同态,类满同态,甚至是类同构,这样它既适应于计算机处理,又最大的保留了自然语言的内容。

但自然语言本身是复杂的,这个概念符号系统,如后面所见到的,也是复杂的。否则这个映射也就成了浮光掠影式的,反映不了自然语言本质的东西,就无法去做“理解”的工作了。

晋老师,我现在理解HNC理论,都是从这个角度出发的,也许有不少的偏差,我会在后续的学习过程继续调整。如上面所述,我对困难有充分的准备,呵呵,我感到兴奋与快乐,一做从来没有做过的事,我就如此。即使不能去咱们研究院工作,我也会一直关心这个理论。它的成长给了我很好的启示,而我的终极希望,就是计算机可以和人类做朋友:),可以相互理解的那种。

 

当然,从工作的角度讲,我学习理论,更多的是要考虑现有理论的软件化。做理论创新,我还没有基础。做软件,相信在大家的帮助下,我能慢慢的胜任我的工作。我期待着融入这个团体!

只是,下月如果两个队都获主办方批准的话,我们就要去中山大学去比赛了(ACM)。很想去公司参观学习,或可安排面试等,但不知什么时间好。

听您的建议。

 

祝工作顺利!健康快乐!

 

                                                              连华

                                                           于武汉

本文地址:http://com.8s8s.com/it/it37594.htm