81个开源大数据处理工具汇总(下),包括日志收集系统/集群管理/
Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎,Nutch作为开放源代码 搜索引擎将会更加透明,从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法,而不会解释为什么一个网页会排在一个特定的位置. 除此之外,有的搜索引擎依照网站所付的 费用,而不是根据它们本身的价值进行排序. 与它们不同,Nucth没有什么需要隐瞒,也没有 动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果. Nutch目前最新的版本为version v2.2.1。 官网:https://nutch.apache.org/ 二、Lucene开发者:Doug Cutting(Hadoop之父,你懂的) 简介:Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 官网:http://lucene.apache.org/ 三、SolrCloud简介:SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。 原理图: SolrCloud有几个特色功能: 集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上传 Zookeeper,多机器共用。这些ZK中的配置不会再拿到本地缓存,Solr直接读取ZK中的配置信息。配置文件的变动,所有机器都可以感知到。另外,Solr的一些任务也是通过ZK作为媒介发布的。目的是为了容错。接收到任务,但在执行任务时崩溃的机器,在重启后,或者集群选出候选者时,可以再次执行这个未完成的任务。 自动容错SolrCloud对索引分片,并对每个分片创建多个Replication。每个Replication都可以对外提供服务。一个Replication挂掉不会影响索引服务。更强大的是,它还能自动的在其它机器上帮你把失败机器上的索引Replication重建并投入使用。 近实时搜索立即推送式的replication(也支持慢推送)。可以在秒内检索到新加入索引。 查询时自动负载均衡SolrCloud索引的多个Replication可以分布在多台机器上,均衡查询压力。如果查询压力大,可以通过扩展机器,增加Replication来减缓。 自动分发的索引和索引分片发送文档到任何节点,它都会转发到正确节点。 事务日志事务日志确保更新无丢失,即使文档没有索引到磁盘。 四、Solr简介:Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |