coreseek开源中文检索引擎介绍

建站交流12年前 (2013-08-22)12820
Coreseek全文搜索服务器的主要特性包括: [list=1]
[*]支持多种数据来源
[list]
[*]Mysql数据库
支持多种MySQL文本数据的中文编码格式,目前支持的有UTF-8、GB18030;
[*]PostgreSQL数据库
[*]xmlpipe2 数据管道
允许用户通过xmlpip2向全文搜索服务器导入自定义格式的数据。
[*]Python 可编程数据源
[/list][*]高性能
[list]
[*]高速索引
在现代CPU上可达10 MB/秒(英文),在启用了中文分词后,建立索引的速度可达300K/s;
[*]高速搜索
在2-4 GB的文本建立的索引上搜索,平均0.1秒内获得结果;
[*]可处理大数据量
在单一CPU上,实测最高可对100GB的文本建立索引,单一索引可包括100M文件
[*]支持分布式搜索
支持主从式的分布式搜索,支持单一节点失效不影响整个搜索系统
[/list][*]支持复杂的查询
[list]
[*]支持基于短语和基于统计的复合结果排序机制
[*]支持任意数量的文件字段(数值或全文文本)
[*]支持不同的搜索模式( “完全匹配” , “短语匹配”和“任一匹配” )
[/list][*]为中文优化
[list]
[*]基于最大匹配算法的中文分词模块
[*]支持GB18030、UTF-8等多种编码的数据源
[*]针对中文的具体特点,对结果的排序进行了优化
[/list][*]支持作为MySQL的存储引擎
[/list]

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。