nutch2.2.0、nutch2.3.0和hbase0.98.7集成,hbase0.98


1.首先配置好hadoop的集群

2.安装zookeeper环境部署

3.hbase安装


如果不会详见 搭建hadoop2.2.0集群,Zookeeper集群和hbase-0.98.0-hadoop2-bin.tar.gz集群


4.   由于gora0.5版本支持的还是hbase0.94.14,参考Gora upgrades to Hadoop 2.5.X and HBase 0.98.X ,Gora目前支持hbase0.98.x了,所以需要编译gora源代码

5.   上述编译nutch文件时,有点不完善,就是你使用的是hadoop2.x 而 ivy /ivy.xml中,所以将ivy/ivy.xml中  

<dependency org="org.apache.hadoop" name="hadoop-core"
      rev="1.2.0" conf="*->default">


改为:

<dependency org="org.apache.hadoop" name="hadoop-common"
      rev="2.2.0" conf="*->default">

再执行步骤4,你的爬虫就可以了!

相关内容