HBase 实现数据同步 ElasticSearch

HBase 作为 NoSQL 或列式数据库,虽然解决了海量数据存储需求,但查询满足非常有限。因为访问 HBase 表中的行,只有三种方式:

  1. 通过单个RowKey
  2. 通过RowKey的range(最好是前缀扫描)
  3. 全表扫描
查看全文 →

ElasticSearch 2.x 安装部署

ElasticSearch 5.x 要求 JDK 必须为 1.8+,并且目前大部分插件也不支持,截至到目前(2017-05-01),2.x 的版本更稳定一些。

查看全文 →

Linux/Mac 下伪分布式 HBase 开发测试环境

准备工作

Mac 下不要使用brew 来安装Hadoop相关软件,因为各组件之间的版本可能不兼容:

查看全文 →

Solr 地理位置搜索

不需要排序
fq
{!geofilt sfield=LatitudeLongitude pt=31.8671998804321,117.308743414503 d=5}

fl
LatitudeLongitude,CompanyName,Address,distance:geodist(LatitudeLongitude,31.8671998804321,117.308743414503)

需要排序
q
{!geofilt score=distance sfield=LatitudeLongitude pt=31.8671998804321,117.308743414503 d=1}

fl
score,LatitudeLongitude,CompanyName,Address,distance:geodist(LatitudeLongitude,31.8671998804321,117.308743414503)

sort
score desc

filter=false

{!geofilt score=distance filter=false}
City:"合肥"
score,LatitudeLongitude,CompanyName,Address,distance:geodist(LatitudeLongitude,31.8671998804321,117.308743414503)

sort

geodist() desc

Solr Suggest 组件

Lookup Implementations

AnalyzingLookupFactory

FuzzyLookupFactory

AnalyzingInfixLookupFactory

基于Cloudera CDH的Hadoop平台搭建

Cloudera 企业级Apache Hadoop 提供商和服务商,提供产品、专业服务、技术支持与培训。是目前在Hadoop生态系统中,规模最大、知名度最高的公司,也是Hadoop生态主要贡献者。

Cloudera CDH 套件几乎集成了 Hadoop 生态所有组件,虽然版本略有滞后,但解决了最困难的组件间兼容性问题,并补丁。
Cloudera Express 和 Cloudera Enterprise 为 Cloudera 商业产品软件,包括免费版与企业版。提供了一个基于 Web 的用户界面,应用程序,部署、管理、监控的解决方案。

查看全文 →

Cloudera 集群修改IP

原则上我以为Cloudera是使用hostname节点通信,修改IP地址只需要修改hostanme就可以了,事实不是这样。

以下是 Cloudera 集群修改IP的方法:

查看全文 →

Solr 5.5.1 单机版安装部署

Solr 4 到 Solr 5 的一些变更:

  • 可通过内置脚本一键安装,同时支持安装为Linux的服务,启动脚本也增加了更多的参数支持。并且Solr 5通过内置Server实现Http接口(虽然还是使用Jetty)
  • schemal.xml 变更为managed-solr
查看全文 →

Solr 优化

Solr HTTP BASIC 认证

Solr安全性最简单的就是 HTTP Basic 认证了,以下配置方法。

查看全文 →

Solr 常见问题与错误记录

Solr 常用指令

Solr 4.10 手册

本文档参考自 apache-solr-ref-guide-4.10.pdf
测试环境使用 Solr 为 CDH 最新发行版本:solr-4.10.3-cdh5.5.1 (官方 4.10.3 发布于2014-12-29)
当前 Solr 官方最新版为:5.5.1 (截至到2016-06-18)

查看全文 →

HBase Indexer 整合 Solr

Lily HBase Indexer提供了快速、简单的HBase的内容检索方案,它可以帮助你在Solr中建立HBase的数据索引,从而通过Solr进行数据检索。由于索引过程是异步的,所以并不影响HBase的写负载,同时借助 SolrCloud 可实现分布式索引。

该项目起源于多年研究HBase索引方案的平台Lily。

查看全文 →

Pig 的安装与使用

编写 Map 和 Reduce 应用程序并不十分复杂(是吗?),但这些编程确实需要一些软件开发经验。Apache Pig 改变了这种状况,它在 MapReduce 的基础上创建了更简单的过程语言抽象,为 Hadoop 应用程序提供了一种更加接近结构化查询语言 (SQL) 的接口。因此,您不需要编写一个单独的 MapReduce 应用程序,您可以用 Pig Latin 语言写一个脚本,在集群中自动并行处理与分发该脚本。它会自动转换未MR运行

查看全文 →