在linux系统下使用kettle操作实例,linuxkettle


我们之前学习的kettle操作都是在windows中进行可视化的操作,但是在使用过程中发现一些问题。

比如我们的数据文件是放在linux服务器中的,如果要清洗则需要把它们下载到本地,这样需要耗费一些时间,尤其是数据文件比较大时。

解决方案就是 我们直接在linux服务器中运行kettle进行抽取。

Kettle可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定,不过在使用之前需要准备环境。

准备java环境

使用命令查看java环境

java -version

如图:

\

需要注意的是不建议使用默认安装的openjdk,否则后续会有很多莫名其妙的问题。

\

从上面可以看到,在zzq用户下已经安装了java jdk,版本是1.8.0_141,我们看一下kettle的最低版本要求,编辑查看spoon.bat可以看到如图

\

java的版本需求为1.6.0_17,cognos用户下的jdk版本在此之上,说明java环境已经符合。

上传部署

利用SSH将本地可用的增加好jar包配置好的data-integration打包成data-integration.zip上传到linux服务器(将整个文件夹上传也可以)

我这里使用的工具是Xftp如下图:

\

使用unzip命令解压data-integration.zip(如果上传的是文件夹,忽略此步骤)

unzip data-integration.zip

解压成功如图:

\

确保可执行权限

使用命令查看文件权限

ls -l /data-integration

如图

\

从上面可以看出,此目录下面的.sh文件都没有执行权限(X),需要这个文件夹下面的所有.sh文件赋执行的权限

使用命令

chmod +x ./data-integration/*.sh

再查看已经有执行权限了,如图:

\

使用命令测试是否部署成功

./data-integration/kitchen.sh

如果出现帮助信息则部署成功。

\

常用命令

ktr的运行:运行transformation文件是通过pan.sh来运行的。

打开cmd命令行窗口,转到pan.sh所在的目录,如/home/zzq/data-integration,然后执行文件的命令为

./pan.sh -file=/home/zzq/work/test.ktr

如果要输出日志则

./pan.sh -file=/home/zzq/work/test.ktr >> /home/zzq/log/kettle.log

后台模式运行使用

./pan.sh -file=/home/zzq/work/genotypeHiveLinux.ktr >> /home/zzq/log/kettle.log &

kjb的运行:运行job文件是通过kitchen.sh来运行的。

打开cmd命令行窗口,转到kitchen.sh所在的目录,如/home/zzq/data-integration,然后执行文件的命令为

./kitchen.sh -file=/home/zzq/work/test.kjb

如果要输出日志则

./kitchen.sh -file=/home/zzq/work/test.kjb >> /home/zzq/log/kettle.log

配置参数:

Pan——转换执行器

用来执行转换。参数与Kitchen类似,如下。

1- -version显示版本信息

2- -file=filename运行xml文件

3- -param:key=value指定命名参数

4- -log=logging filename 设置日志文件

5- -level=logging level 设置日志级别

Error:只显示错误

Nothing:不显示任何输出

Minimal:只使用最少的记录

Basic:这是默认的基本日志记录级别

Detailed:详细的日志输出

Debug:以调试为目的,非常详细的输出

Rowlevel:使用行级记录,会产生大量的数据

返回状态,Pan会基于执行状况返回一个错误码:

0:转换执行成功

1:处理过程中发生错误

2:在装载或者运行时发生意外的错误

3:不能初始化转换

7:转换不能从资源库或xml中装载

8:装载步骤或插件错误(通常是装载其中一个插件错误)

9:命令行用法错误

Kitchen——作业执行器

用来执行作业。这是一个命令行执行工具,参数说明如下。

1) -rep:Repositoryname任务包所在存储名

2) -user:Repositoryusername执行人

3) -pass:Repositorypassword执行人密码

4) -job:Thenameofthejobtolaunch任务包名称

5) -dir:Thedirectory(don’tforgettheleading/or)

6) -file:Thefilename(JobXML)tolaunch

7) -level:Thelogginglevel(Basic,Detailed,Debug,Rowlevel,Error,Nothing)指定日志级别

8) -log:Theloggingfiletowriteto指定日志文件

9) -listdir:Listthedirectoriesintherepository列出指定存储中的目录结构。

10) -listjobs:Listthejobsinthespecifieddirectory列出指定目录下的所有任务

11) -listrep:Listthedefinedrepositories列出所有的存储

12) -norep:Don’tlogintotherepository不写日志

示例: 1. Windows 中多个参数以 / 分隔,key 和value之间以:分隔

作业存储在文件

Kitchen.bat /level:Basic>D:\etl.log /file:F:\Kettledemo\email.kjb

作业存储在数据库

Kitchen.bat /rep kettle /user admin /pass admin /job F_DEP_COMP

(Rep的值为数据库资源库ID)

Linux 中参数以 –分隔

作业存储在文件

./kitchen.sh-file=/home/job/huimin.kjb >> /home/ log/kettle.log

作业存储在数据库

./kitchen.sh -rep=kettle1 -user=admin -pass=admin -level=Basic -job=job

测试运行转换脚本

把ktr转换脚本要清洗的文件的路径修改成linux对应的路径如下:

\

把ktr脚本上传到work目录中

\

使用命令运行

/home/zzq/data-integration/pan.sh -file=/home/zzq/work/genotypeHiveLinux.ktr >> /home/zzq/log/kettle.log &

成功运行使用命令查看日志:

tail -f -n 500 ./log/kettle.log

可能遇到的问题

database type with plugin id [HIVE2] couldn’t be found

详细报错如下:

#######################################################################

WARNING: no libwebkitgtk-1.0 detected, some features will be unavailable

Consider installing the package with apt-get or yum.

e.g. 'sudo apt-get install libwebkitgtk-1.0-0'

#######################################################################

OpenJDK 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0

12:06:05,243 INFO [KarafBoot] Checking to see if org.pentaho.clean.karaf.cache is enabled

12:06:05,333 INFO [KarafInstance]

*******************************************************************************

*** Karaf Instance Number: 1 at /home/zzq/data-integration/./system/karaf/c ***

*** aches/pan/data-1 ***

*** FastBin Provider Port:52901 ***

*** Karaf Port:8802 ***

*** OSGI Service Port:9051 ***

*******************************************************************************

一月 19, 2018 12:06:05 下午 org.apache.karaf.main.Main$KarafLockCallback lockAquired

信息: Lock acquired. Setting startlevel to 100

D:\kettle\data-integration\system\karaf/deploy does not exist, please create it.

Root path does not exist: /home/zzq/data-integration/D:\kettle\data-integration\system\karaf/deploy

Updating configuration from org.ops4j.pax.logging.cfg

Creating configuration from org.apache.activemq.server-default.cfg

Updating configuration from org.ops4j.pax.url.mvn.cfg

Updating configuration from org.apache.karaf.shell.cfg

Creating configuration from org.pentaho.caching-default.cfg

Creating configuration from org.apache.felix.fileinstall-deploy.cfg

12:06:08,902 ERROR [KarafLifecycleListener] Error in Feature Watcher

org.pentaho.osgi.api.IKarafFeatureWatcher$FeatureWatcherException: No IKarafFeatureWatcher service available

at org.pentaho.di.osgi.KarafLifecycleListener$2.run(KarafLifecycleListener.java:141)

at java.lang.Thread.run(Thread.java:748)

12:06:08,905 ERROR [KarafLifecycleListener] Error in Blueprint Watcher

org.pentaho.osgi.api.IKarafBlueprintWatcher$BlueprintWatcherException: No IKarafBlueprintWatcher service available

at org.pentaho.di.osgi.KarafLifecycleListener$2.run(KarafLifecycleListener.java:157)

at java.lang.Thread.run(Thread.java:748)

2018/01/19 12:06:08 - Pan - 开始运行.

处理过程停止,由于错误:

错误从XML文件读取转换

错误从XML文件读取转换

Unable to load database connection info from XML node

Unable to create new database interface

database type with plugin id [HIVE2] couldn't be found!

org.pentaho.di.core.exception.KettleXMLException:

错误从XML文件读取转换

错误从XML文件读取转换

Unable to load database connection info from XML node

Unable to create new database interface

database type with plugin id [HIVE2] couldn't be found!

at org.pentaho.di.trans.TransMeta.loadXML(TransMeta.java:3402)

at org.pentaho.di.trans.TransMeta.(TransMeta.java:2758)

at org.pentaho.di.trans.TransMeta.(TransMeta.java:2710)

at org.pentaho.di.trans.TransMeta.(TransMeta.java:2687)

at org.pentaho.di.trans.TransMeta.(TransMeta.java:2667)

at org.pentaho.di.trans.TransMeta.(TransMeta.java:2632)

at org.pentaho.di.trans.TransMeta.(TransMeta.java:2595)

at org.pentaho.di.pan.Pan.main(Pan.java:397)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:498)

at org.pentaho.commons.launcher.Launcher.main(Launcher.java:92)

Caused by: org.pentaho.di.core.exception.KettleXMLException:

错误从XML文件读取转换

Unable to load database connection info from XML node

Unable to create new database interface

database type with plugin id [HIVE2] couldn't be found!

at org.pentaho.di.trans.TransMeta.loadXML(TransMeta.java:3384)

... 12 more

Caused by: org.pentaho.di.core.exception.KettleXMLException:

Unable to load database connection info from XML node

Unable to create new database interface

database type with plugin id [HIVE2] couldn't be found!

at org.pentaho.di.core.database.DatabaseMeta.(DatabaseMeta.java:1013)

at org.pentaho.di.trans.TransMeta.loadXML(TransMeta.java:2976)

... 12 more

Caused by: org.pentaho.di.core.exception.KettleXMLException:

Unable to create new database interface

database type with plugin id [HIVE2] couldn't be found!

at org.pentaho.di.core.database.DatabaseMeta.(DatabaseMeta.java:977)

... 13 more

Caused by: org.pentaho.di.core.exception.KettleDatabaseException:

database type with plugin id [HIVE2] couldn't be found!

at org.pentaho.di.core.database.DatabaseMeta.findDatabaseInterface(DatabaseMeta.java:584)

at org.pentaho.di.core.database.DatabaseMeta.getDatabaseInterface(DatabaseMeta.java:558)

at org.pentaho.di.core.database.DatabaseMeta.(DatabaseMeta.java:974)

... 13 more

\

原因

我这里是直接把windows中可用的data-integration复制过来在linux运行,按理说不会有问题,那么应该是环境配置的问题,尝试着运行spoon.sh使用命令

./data-integration/spoon.sh

报错java.lang.UnsatisfiedLinkError: Could not load SWT library. Reasons。

\

说明缺少可以加载lib包的环境,这也可能是导致无法读取到xml数据库配置的原因。

刚好我们注意到报错代码中有提醒:

#######################################################################

WARNING: no libwebkitgtk-1.0 detected, some features will be unavailable

Consider installing the package with apt-get or yum.

e.g. 'sudo apt-get install libwebkitgtk-1.0-0'

#######################################################################

解决方法

根据提示完成libwebkitgtk的安装。

在centos版本中使用的命令为:

yum install epel-release

yum install webkitgtk

安装完后再运行命令

/home/zzq/data-integration/pan.sh -file=/home/zzq/work/genotypeHiveLinux.ktr >> /home/zzq/log/kettle.log &

发现仍然报错database type with plugin id [HIVE2] couldn’t be found,但是错误的原因已经改变了如下:

D:\kettle\data-integration\system\karaf/deploy does not exist, please create it.

Root path does not exist: /home/zzq/data-integration/D:\kettle\data-integration\system\karaf/deploy

\

经过排查Root path does not exist这是由于缓存文件造成的错误,kettle在windows上启动运行后有缓存

根据日志输出可以找到缓存目录

*******************************************************************************

*** Karaf Instance Number: 1 at /home/zzq/data-integration/./system/karaf/c ***

*** aches/pan/data-1 ***

*** FastBin Provider Port:52901 ***

*** Karaf Port:8802 ***

*** OSGI Service Port:9051 ***

缓存目录有两个分别为:

/home/zzq/data-integration/./system/karaf/caches

/home/zzq/data-integration/./system/karaf/data

将以上两个目录删除后重新运行命令即可。

rm -rf /home/zzq/data-integration/./system/karaf/caches

rm -rf /home/zzq/data-integration/./system/karaf/data

/home/zzq/data-integration/pan.sh -file=/home/zzq/work/genotypeHiveLinux.ktr >> /home/zzq/log/kettle.log &

发现已经能够成功运行如下:

\

可能遇到的问题

No suitable driver found for jdbc:hive2

详细报错如下:

信息: New Caching Service registered

2018/01/19 15:25:01 - Pan - 开始运行.

2018/01/19 15:25:01 - genotypeHiveLinux - 为了转换解除补丁开始 [genotypeHiveLinux]

2018/01/19 15:25:01 - 执行SQL脚本.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : An error occurred, processing will be stopped:

2018/01/19 15:25:01 - 执行SQL脚本.0 - Error occurred while trying to connect to the database

2018/01/19 15:25:01 - 执行SQL脚本.0 -

2018/01/19 15:25:01 - 执行SQL脚本.0 - Error connecting to database: (using class org.apache.hive.jdbc.HiveDriver)

2018/01/19 15:25:01 - 执行SQL脚本.0 - No suitable driver found for jdbc:hive2://192.168.30.253:10000/default

2018/01/19 15:25:01 - 执行SQL脚本 2.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : An error occurred, processing will be stopped:

2018/01/19 15:25:01 - 执行SQL脚本 2.0 - Error occurred while trying to connect to the database

2018/01/19 15:25:01 - 执行SQL脚本 2.0 -

2018/01/19 15:25:01 - 执行SQL脚本 2.0 - Error connecting to database: (using class org.apache.hive.jdbc.HiveDriver)

2018/01/19 15:25:01 - 执行SQL脚本 2.0 - No suitable driver found for jdbc:hive2://192.168.30.253:10000/default

2018/01/19 15:25:01 - 执行SQL脚本.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : 错误初始化步骤[执行SQL脚本]

2018/01/19 15:25:01 - 执行SQL脚本 2.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : 错误初始化步骤[执行SQL脚本 2]

原因很明显,就是没有hive的驱动包导致的。

这里需要注意的是hive2和hive的版本问题,也就是说

Connection URL

jdbc:hive2:// 使用的驱动是org.apache.hive.jdbc.HiveDriver。

jdbc:hive:// 使用的驱动是org.apache.hadoop.hive.jdbc.HiveDriver

详细信息可以参考文章:

hadoop组件—数据仓库(五)—通过JDBC连接hive的thrift或者hiveserver2

如果确认提示和配置没问题,那么还有另外一个原因就是缺少jar包。

这里有些奇怪的是data-integration文件夹我们是从windows系统中可用的版本直接打包过来的,按理说不会缺少jar包。

检查了一下 我们确实也在路径

data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib

下放置了hive相关的jar包。

参考文章的方式一

kettle案例七连接hive–抽取mongodb的数据保存到hive

但是 奇怪的是linux系统运行pan的时候 并没有加载到这些jar包。经过排查,linux系统需要把hive相关的jar包再放置一份到data-integration\lib中。

如下:

\

再次尝试运行成功解决。

可能遇到的问题

Caused by: java.net.UnknownHostException: host250

详细报错如下:

18/01/19 15:46:39 - Hadoop File Output.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : Couldn't open file hdfs://hdfs@host250:8020/user/hive/warehouse/genotype.txt

2018/01/19 15:46:39 - Hadoop File Output.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : java.lang.reflect.UndeclaredThrowableException

2018/01/19 15:46:39 - Hadoop File Output.0 - at com.sun.proxy.$Proxy66.getFileSystem(Unknown Source)

2018/01/19 15:46:39 - Hadoop File Output.0 - at com.pentaho.big.data.bundles.impl.shim.hdfs.HadoopFileSystemFactoryImpl.create(HadoopFileSystemFactoryImpl.java:94)

2018/01/19 15:46:39 - Hadoop File Output.0 - at Proxy7c377dcb_639a_42dd_9255_bad6188e939c.create(Unknown Source)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.bigdata.api.hdfs.impl.HadoopFileSystemLocatorImpl.getHadoopFilesystem(HadoopFileSystemLocatorImpl.java:59)

2018/01/19 15:46:39 - Hadoop File Output.0 - at Proxyb5661c76_80f5_4521_8dfc_bf38de0a8a38.getHadoopFilesystem(Unknown Source)

2018/01/19 15:46:39 - Hadoop File Output.0 - at Proxy638011c2_3385_4e2e_a7b0_c5576ed09efd.getHadoopFilesystem(Unknown Source)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.big.data.impl.vfs.hdfs.HDFSFileProvider.doCreateFileSystem(HDFSFileProvider.java:114)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.commons.vfs2.provider.AbstractOriginatingFileProvider.getFileSystem(AbstractOriginatingFileProvider.java:102)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.commons.vfs2.provider.AbstractOriginatingFileProvider.findFile(AbstractOriginatingFileProvider.java:80)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.commons.vfs2.provider.AbstractOriginatingFileProvider.findFile(AbstractOriginatingFileProvider.java:64)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.commons.vfs2.impl.DefaultFileSystemManager.resolveFile(DefaultFileSystemManager.java:790)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.commons.vfs2.impl.DefaultFileSystemManager.resolveFile(DefaultFileSystemManager.java:712)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.di.core.vfs.KettleVFS.getFileObject(KettleVFS.java:152)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.di.core.vfs.KettleVFS.getFileObject(KettleVFS.java:107)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.di.trans.steps.textfileoutput.TextFileOutput.getFileObject(TextFileOutput.java:1032)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.di.trans.steps.textfileoutput.TextFileOutput.openNewFile(TextFileOutput.java:700)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.di.trans.steps.textfileoutput.TextFileOutput.init(TextFileOutput.java:792)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.di.trans.step.StepInitThread.run(StepInitThread.java:69)

2018/01/19 15:46:39 - Hadoop File Output.0 - at java.lang.Thread.run(Thread.java:748)

2018/01/19 15:46:39 - Hadoop File Output.0 - Caused by: java.lang.reflect.InvocationTargetException

2018/01/19 15:46:39 - Hadoop File Output.0 - at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

2018/01/19 15:46:39 - Hadoop File Output.0 - at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

2018/01/19 15:46:39 - Hadoop File Output.0 - at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

2018/01/19 15:46:39 - Hadoop File Output.0 - at java.lang.reflect.Method.invoke(Method.java:498)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.hadoop.shim.HadoopConfiguration$1.invoke(HadoopConfiguration.java:145)

2018/01/19 15:46:39 - Hadoop File Output.0 - ... 19 more

2018/01/19 15:46:39 - Hadoop File Output.0 - Caused by: java.lang.IllegalArgumentException: java.net.UnknownHostException: host250

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:411)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.hdfs.NameNodeProxies.createNonHAProxy(NameNodeProxies.java:311)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.hdfs.NameNodeProxies.createProxy(NameNodeProxies.java:176)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.hdfs.DFSClient.(DFSClient.java:688)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.hdfs.DFSClient.(DFSClient.java:629)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:159)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2761)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:99)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2795)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2777)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:386)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:179)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.hadoop.shim.common.CommonHadoopShim.getFileSystem(CommonHadoopShim.java:202)

2018/01/19 15:46:39 - Hadoop File Output.0 - at org.pentaho.hadoop.shim.common.delegating.DelegatingHadoopShim.getFileSystem(DelegatingHadoopShim.java:96)

2018/01/19 15:46:39 - Hadoop File Output.0 - ... 24 more

2018/01/19 15:46:39 - Hadoop File Output.0 - Caused by: java.net.UnknownHostException: host250

2018/01/19 15:46:39 - Hadoop File Output.0 - ... 38 more

原因是我们在配置中使用了host名称而不是使用的ip,所以如果linux系统没设置host会对应不到。

解决方式设置host即可。

Linux主机名的相关配置文件就是/etc/hosts;

hosts文件的格式如下:

IP地址 主机名/域名

第一部份:网络IP地址;

第二部份:主机名或域名;

第三部份:主机名别名;

使用命令

vim /ect/hosts

点击i插入编辑添加对应关系如下:

192.168.30.217 host217

192.168.30.250 host250

192.168.30.252 host252

192.168.30.251 host251

最终内容如图:

\

使用命令测试是否设置成功

ping host250

其他异常

如果还有其他异常,比如hdfs写入无法连接hadoop集群而是写到了本机等等想象无法排查时,建议看文末启动图形界面排查,这样就可以跟在windows系统上一样进行操作和排查。

编写运行的sh

在文件夹中新建执行job的文件,

新建文件命令: touch xxx.sh

并赋予文件执行权限

chmod +x xxx.sh

编辑xxx.sh文件

Vi xxx.sh

输入 :

!/bin/sh

source /etc/profile 配置环境变量(使用crontab时候,由于crontab不识别系统的环境变量,所以需要我们这边再配置一遍)

ROOT_TOPDIR=/home/zzq/kettle

Export ROOT_TOPDIR –设置kettle目录

$ROOT_TOPDIR/data-integration/kitchen.sh –file=需要执行的job的文件(绝对路径)

保存!

8

可在目录下直接执行./xxx.sh 文件运行

配置crontab定时运行作业或者转换

基本格式 :

*  *  *  *  *  command

分 时 日 月 周 命令

第1列表示分钟1~59 每分钟用或者 /1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令

在crontab中配置自动每天12点30分执行xxx.sh文件

编辑crontab : crontab –e

增加一行

30 12 * * * /home/zzq/kettle/xxx.sh

如果要输出日志可

30 12 * * * /home/zzq/kettle/xxx.sh >> /home/zzq/kettle/log01

如果kettle下面不存在log01文件会自动创建

配置完后重启crontab服务:

Service crond restart

查看crontab服务

Service crond status

查看crontab中的内容

Crontab –1

注意事项

1、此地配置的kettle是不连接资源库的,用的都是ktr或者kjb文件直接上传到linux即可,因此在ktr中连接的数据库需要配置在ktr文件中,数据库连接统一使用Native(JDBC)连接,不使用JNDI连接,因为crontab无法识别JNDI的连接

2、JDBC连接MYSQL的时候在连接选项中添加characterEncoding :gbk参数,否则mysql数据库中的中文会在转换中无法识别

使用图形界面操作

如果linux系统直接可以使用图形界面启动那么就可以像windows系统一下操作spoon进行开发。

如果不是图形界面启动的话,则需要使用vncviewer等工具登录linux系统图形界面,在data-integration目录下,运行spoon.sh进行开发。

执行spoon.sh会报错

org.eclipse.swt.SWTError: No more handles [gtk_init_check() failed]

\

这是因为当前版本的系统没有图形界面部分。

所以需要借助VNC工具。

在自己的windows电脑上安装连接工具vncviewer。

官网

https://www.realvnc.com/en/connect/download/viewer/

下载版本最新版本,当前为VNC-Viewer-6.17.1113-Windows.exe。

点击安装。

在linux系统中使用命令查看是否安装VNC server

rpm -qa | grep vnc

在Linux平台安装VNCServer服务端软件包

sudo yum -y install vnc *vnc-server*

修改VNCServer主配置文件

vim /etc/sysconfig/vncservers

添加内容如下:

VNCSERVERS=”1:zzq”

VNCSERVERARGS[1]=”-geometry 1024x768”

\

zzq与自己的用户名对应

设置VNCServer远程连接密码使用命令

vncpasswd

输入两次相同的密码

启动vncserver服务

vncserver

vncserver -list

vncserver restart

启动如下:

\

上一步执行完毕会在zzq宿主目录下生成.vnc开头的隐藏目录,该目录下面的文件就是zzq用户的VNC桌面配置文件。打开xstartup配置桌面

vim /home/zzq/.vnc/xstartup

将最后一行改为

gnome &

(使用GNOME桌面)

\

开启防火墙VNCServer端口

sudo vim /etc/sysconfig/iptables

在“-A INPUT -m state –state NEW -m tcp -p tcp –dport 22 -j ACCEPT”下面添加一行

-A INPUT -m state –state NEW -m tcp -p tcp –dport 5901 -j ACCEPT

重启iptables服务

service iptables restart

在windows中打开VNC,新建连接输入

VNC Server为

192.168.30.64:1

zzq

这里的1和zzq与上文中配置文件里的对应。

如果连接蓝屏说明linux没有安装图形界面组件,使用命令安装gnome

sudo yum groupinstall "X Window System"

sudo yum groupinstall "GNOME Desktop" "Graphical Administration Tools"

安装后重新启动 重新连接即可

vncserver restart

如图:

\

在桌面右键 打开终端 输入命令

/home/zzq/data-integration/spoon.sh

打开kettle成功

\

可能遇到的问题

弹出框兼容性问题无法点击下面的确定按钮

如图

\

解决方法 使用快捷键

ALT + O

<

相关内容