浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别

浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别

下面小编就带大家简单说说Coreseek,Sphinx-for-Chinese和Sphinx Scws的区别。我觉得边肖挺好的。我现在就分享给你,给你一个参考。来和边肖一起看看吧。

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)高速索引(在当代CPU上,峰值性能可达10mb/s);

b)高性能搜索(对于24gb的文本数据,每次搜索的平均响应时间小于0.1秒);

c)可以处理海量数据(已知可以在单个CPU系统上处理超过100 GB的文本数据和100 M文档);

狮身人面像本身并不能很好的支持中文。

主要体现在一个段落的断字;英语只需要按空格分单词;但是,对于博大精深的中国人来说,却是一件困难的事情。

分词在两个地方会用到;

1.索引时,根据分词对原始数据进行索引。

2.搜索时,向用户输入分词,在索引中查询。

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1.Coreseek是中国人基于Sphinx开发的程序。目前最稳定的版本是基于经典的斯芬克斯0.9.9版本。

优点:

有成熟的文档和社区;其分词mmseg是目前国内最好的分词,可用于索引和搜索分词。

缺点:

深度开发,版本更新慢;慢速指数

策略:一个词库管理后台维护词库;定期生成词典;这个包会自动划分单词索引;

适用场景:普通青年,类似搜索,适用于常见网站。

2.Sphinx-for-Chinese是Chinese 2在经典的Sphinx 0 . 9 . 9版本基础上开发的扩展版本。

优点:

部署简单,操作方便,内嵌分词和词库,可用于索引和搜索分词;

缺点:

版本更新慢;弱分词;索引相对较慢。

策略:相同

适用场景:普通青年,赶紧组建搜索小站。

3.Sphinx Scws是两个独立的系统,分开部署,所谓高内聚低耦合,强烈推荐。

优点:

两个系统,相对独立,各自有自己的服务器;分词可以用于其他目的;版本更新快;

缺点:

部署使用略复杂;索引分词只能用一元分词,数据量大。

策略:超越词库管理;使用时,先调用分词服务,再调用搜索。

适用场景:文艺青年,建筑体面搜索;好文艺青年

上面提到的Coreseek、Sphinx-for-Chinese和Sphinx Scws的区别就是边肖分享的所有内容。希望能给大家一个参考,多多支持我们。

浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别