一种面向搜索引擎的中文切分词方法

类别:编程语言 点击:0 评论:0 推荐:

一种面向搜索引擎的中文切分词方法

    首先说一下搜索引擎切分词的产生的原因。
    在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正确检索
    文字的分割方法主要有两种,分别是 词语解析索引 和 文字索引 。
    词语解析索引是按照字典中最小的词语单位对文本进行分割,既按词义切分。如中科院的 ICTCLAS。
    文字索引是不考虑文本中词的意义,只是按照一定的字长的单位进行切分。如 车东的二元切分法。

    上面两种方法对搜索的影响已经在 不同规则的中文分词对Lucene索引的影响  一文中做了对比。
    这里想纠正的一点是:我在里面提到: 从直觉观察来看,索引文件中的Term越多,搜索结果也越快,搜索的相关性也越高。

本文地址:http://com.8s8s.com/it/it23770.htm