kettle调用python
① java集成kettle调用kjb作业文件时报错,错误信息如下,这个是什么原因
Unable to get VFS File object for filename 'file:///D:/tDataWarehouseMonitor/wuzilb.ktr' : Unknown scheme "sftp" in URI "{1}".这个错误是没有找到文件的路径,看看这路径下有没有文件
② kettle调用存储过程的时候,找不到数据库中的存储过程(数据库已经正确的连接上了)
无参数的存储过程吗,kettle是不显示的,直接手动输入存储过程名称就可以了
③ python可以调用kettle作业吗
是可以的,之前子健老师的课程里面有提到。但是我个人推荐的是使用Python,直接使用Python去请求api.然后解析XML文件,毕竟快速解析还是重要的业务实现。
④ Python爬虫数据应该怎么处理
一、首先理解下面几个函数
设置变量 length()函数 char_length() replace() 函数 max() 函数
1.1、设置变量 set @变量名=值
set @address='中国-山东省-聊城市-莘县';select @address
1.2 、length()函数 char_length()函数区别
select length('a')
,char_length('a')
,length('中')
,char_length('中')
1.3、 replace() 函数 和length()函数组合
set @address='中国-山东省-聊城市-莘县';select @address
,replace(@address,'-','') as address_1
,length(@address) as len_add1
,length(replace(@address,'-','')) as len_add2
,length(@address)-length(replace(@address,'-','')) as _count
etl清洗字段时候有明显分割符的如何确定新的数据表增加几个分割出的字段
计算出com_instry中最多有几个 - 符 以便确定增加几个字段 最大值+1 为可以拆分成的字段数 此表为3 因此可以拆分出4个行业字段 也就是4个行业等级
select max(length(com_instry)-length(replace(com_instry,'-',''))) as _max_count
from etl1_socom_data
1.4、设置变量 substring_index()字符串截取函数用法
set @address='中国-山东省-聊城市-莘县';
select
substring_index(@address,'-',1) as china,
substring_index(substring_index(@address,'-',2),'-',-1) as province,
substring_index(substring_index(@address,'-',3),'-',-1) as city,
substring_index(@address,'-',-1) as district
1.5、条件判断函数 case when
case when then when then else 值 end as 字段名
select case when 89>101 then '大于' else '小于' end as betl1_socom_data
二、kettle转换etl1清洗
首先建表 步骤在视频里
字段索引 没有提 索引算法建议用BTREE算法增强查询效率
2.1.kettle文件名:trans_etl1_socom_data
2.2.包括控件:表输入>>>表输出
2.3.数据流方向:s_socom_data>>>>etl1_socom_data
网站页面数据
etl2_socom_data表数据
清洗工作完成。
⑤ 如何使用Kettle调度存储过程
如附件为例子,顺次执行的话,放3个调用DB的存储过程即可
⑥ kettle的调用DB存储过程步骤,查找不到数据库里面的存储过程(数据库已经正确的连接上了)
sp_databases
列出服务器上的所有数据库
sp_server_info
列出服务器信息,如字符集,版本和排列顺序
sp_stored_proceres
列出当前环境中的所有存储过程
sp_tables
列出当前环境中所有可以查询的对象
sp_password
添加或修改登录帐户的密码
sp_configure
显示(不带选项)或更改(带选项)当前服务器的全局配置设置
sp_help
返回表的列名,数据类型,约束类型等
sp_helptext
显示规则,默认值,未加密的存储过程,用户定义的函数,触发器或视图的实际文本
sp_helpfile
查看当前数据库信息
sp_dboption
显示或更改数据库选项
sp_detach_db
分离数据库
sp_attach_db
附加数据库
sp_admpdevice
添加设备
sp_dropdevice
删除设备
sp_pkeys
查看主键
sp_fkeys
查看外键
sp_helpdb
查看指定数据库相关文件信息
sp_addtype
自建数据类型
sp_droptype
删除自建数据类型
sp_rename
重新命名数据库
sp_executesql
执行SQL语句
sp_addlogin
添加登陆
sp_droplogin
删除登录
sp_grantdbaccess
把用户映射到登录,即添加一个数据库安全帐户并授予塔访问权限
sp_revokedbaccess
撤销用户的数据访问权,即从数据库中删除一个安全帐户
sp_addrole
添加角色
sp_addrolemember
向角色中添加成员,使其成为数据库角色的成员
sp_addsrvrolemember
修改登录使其成为固定服务器角色的成员
sp_grantlogin
允许使用组帐户或系统用户使用Windows身份验证连接到SQL
sp_defaultdb
修改一个登录的默认数据库
sp_helpindex
用于查看表的索引
sp_cursoropen
定义与游标和游标选项相关的SQL语句,然后生成游标
sp_cursorfetch
从游标中提取一行或多行
sp_cursorclose
关闭并释放游标
sp_cursoroption
设置各种游标选项
sp_cursor
用于请求定位更新
sp_cursorprepare
把与游标有关的T-SQL语句或批处理编译成执行计划,但并不创建游标
sp_cursorexecute
从由sp_cursorprepare创建的执行计划中创建并填充游标
sp_cursorunprepare
废弃由sp_cursorprepare生成的执行计划
sp_settriggerorder
指定第一个或最后一个激发的、与表关联的AFTER 触发器。在第一个和最后一个触发器之间激发的AFTER 触发器将按未定义的顺序执行
sp_start_job
立即启动自动化任务
sp_stop_job
停止正在执行的自动化任务