一种面向搜索引擎的中文切分词方法
首先说一下搜索引擎切分词的产生的原因。
在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正确检索。
文字的分割方法主要有两种,分别是 词语解析索引 和 文字索引 。
词语解析索引是按照字典中最小的词语单位对文本进行分割,既按词义切分。如中科院的 ICTCLAS。
文字索引是不考虑文本中词的意义,只是按照一定的字长的单位进行切分。如 车东的二元切分法。
上面两种方法对搜索的影响已经在 不同规则的中文分词对Lucene索引的影响 一文中做了对比。
这里想纠正的一点是:我在里面提到: 从直觉观察来看,索引文件中的Term越多,搜索结果也越快,搜索的相关性也越高。
本文地址:http://com.8s8s.com/it/it23770.htm