Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 852|回复: 0

数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch

[复制链接]
  • TA的每日心情
    奋斗
    5 天前
  • 签到天数: 803 天

    [LV.10]以坛为家III

    2053

    主题

    2111

    帖子

    72万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    726482
    发表于 2021-4-14 16:49:49 | 显示全部楼层 |阅读模式

    数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch
    1.lucene (solr, elasticsearch 都是基于它)
    2.sphinx
    3.elasticsearch 简单易用。天生分布式。
    4.HBasene(注意HBase后面加了ne就是 HBase+lucene)。

    solr的请求基本都封装为了http,如果是http服务效率不好呢绕过它,直接透过lucene的API进行查询。
    但是solr云的方式部署进行了负载均衡,效率不会太差。
    应用查询条件最多20个左右,10个solr节点,每个节点的数据1亿左右。
    但是索引不是写在本地磁盘,是写在hdfs上的。

    ================================
    强大的大数据全文索引解决方案-ClouderaSearch
    ClouderaSearch带来了全文索引,实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。
    由Apache Hadoop和Apache Solr提供,是企业级的开源搜索。
    Cloudera Search带来了扩展性和可靠性的新一代集成,多个工作任务的搜索。
    通过它与CDH独特的整合,Cloudera Search获得了同样的容错性,扩展性,可见性,安全性,以及灵活性的提供其他企业级数据中心的工作。

    关键特征:
    1.全文索引和小面(faceted,与solr一样)导航,基于Hadoop和HBase中的内容
    2.可以基于MapReduce实现批量索引。
    3.通过GO-LIVE对动态索(Dynamic index)引进行更新
    4.针对实时查询,集成了Flume和Lily HBase indexer。
    5.无模式(Schema-less)和动态字段的支持,使schema管理更简单
    6.针对hadoop优化的字段格式做了“开箱即可用”(Out-of-the-box)字段的提取
    7.多文件(Multi-file)格式的支持和集成能力
    8.通过HDFS,实现扩展性和容错性索引存储和访问
    9.与Apache Sentry的集成,实现了基于角色,细粒度的权限控制
    10.通过使用Morphlines重用了数据配置通过工作量
    11.与其他hadoop服务共用了基础设施,资源和数据
    12.通过使用Index Aliasing 和 Oozie workflows,使用数据迁移和服务更简单
    13.在Hue中有简单,可配置的,基于面(faceted)和全文搜索的UI可以使用
    14.所有标准的搜索特征在Solr和SolrCloud中有的
    15.跨平台的监控,可见性,资源控制,通过ClouderaManager实现

    Cloudera Search是一个整合了Lily,solr(solr cloud),HBase,Hadoop,Flume等,以及使用ClouderaManager来进行管理的全文索引解决方案。
    任何人使用这个框架都可以轻松搭建一个与google和百度类似的搜索服务。由此可以看出这个框架的强大之处。

    参考官网: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html

     

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-11-22 04:14 , Processed in 0.069271 second(s), 30 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表