kettle調用python
① java集成kettle調用kjb作業文件時報錯,錯誤信息如下,這個是什麼原因
Unable to get VFS File object for filename 'file:///D:/tDataWarehouseMonitor/wuzilb.ktr' : Unknown scheme "sftp" in URI "{1}".這個錯誤是沒有找到文件的路徑,看看這路徑下有沒有文件
② kettle調用存儲過程的時候,找不到資料庫中的存儲過程(資料庫已經正確的連接上了)
無參數的存儲過程嗎,kettle是不顯示的,直接手動輸入存儲過程名稱就可以了
③ python可以調用kettle作業嗎
是可以的,之前子健老師的課程裡面有提到。但是我個人推薦的是使用Python,直接使用Python去請求api.然後解析XML文件,畢竟快速解析還是重要的業務實現。
④ Python爬蟲數據應該怎麼處理
一、首先理解下面幾個函數
設置變數 length()函數 char_length() replace() 函數 max() 函數
1.1、設置變數 set @變數名=值
set @address='中國-山東省-聊城市-莘縣';select @address
1.2 、length()函數 char_length()函數區別
select length('a')
,char_length('a')
,length('中')
,char_length('中')
1.3、 replace() 函數 和length()函數組合
set @address='中國-山東省-聊城市-莘縣';select @address
,replace(@address,'-','') as address_1
,length(@address) as len_add1
,length(replace(@address,'-','')) as len_add2
,length(@address)-length(replace(@address,'-','')) as _count
etl清洗欄位時候有明顯分割符的如何確定新的數據表增加幾個分割出的欄位
計算出com_instry中最多有幾個 - 符 以便確定增加幾個欄位 最大值+1 為可以拆分成的欄位數 此表為3 因此可以拆分出4個行業欄位 也就是4個行業等級
select max(length(com_instry)-length(replace(com_instry,'-',''))) as _max_count
from etl1_socom_data
1.4、設置變數 substring_index()字元串截取函數用法
set @address='中國-山東省-聊城市-莘縣';
select
substring_index(@address,'-',1) as china,
substring_index(substring_index(@address,'-',2),'-',-1) as province,
substring_index(substring_index(@address,'-',3),'-',-1) as city,
substring_index(@address,'-',-1) as district
1.5、條件判斷函數 case when
case when then when then else 值 end as 欄位名
select case when 89>101 then '大於' else '小於' end as betl1_socom_data
二、kettle轉換etl1清洗
首先建表 步驟在視頻里
欄位索引 沒有提 索引演算法建議用BTREE演算法增強查詢效率
2.1.kettle文件名:trans_etl1_socom_data
2.2.包括控制項:表輸入>>>表輸出
2.3.數據流方向:s_socom_data>>>>etl1_socom_data
網站頁面數據
etl2_socom_data表數據
清洗工作完成。
⑤ 如何使用Kettle調度存儲過程
如附件為例子,順次執行的話,放3個調用DB的存儲過程即可
⑥ kettle的調用DB存儲過程步驟,查找不到資料庫裡面的存儲過程(資料庫已經正確的連接上了)
sp_databases
列出伺服器上的所有資料庫
sp_server_info
列出伺服器信息,如字元集,版本和排列順序
sp_stored_proceres
列出當前環境中的所有存儲過程
sp_tables
列出當前環境中所有可以查詢的對象
sp_password
添加或修改登錄帳戶的密碼
sp_configure
顯示(不帶選項)或更改(帶選項)當前伺服器的全局配置設置
sp_help
返回表的列名,數據類型,約束類型等
sp_helptext
顯示規則,默認值,未加密的存儲過程,用戶定義的函數,觸發器或視圖的實際文本
sp_helpfile
查看當前資料庫信息
sp_dboption
顯示或更改資料庫選項
sp_detach_db
分離資料庫
sp_attach_db
附加資料庫
sp_admpdevice
添加設備
sp_dropdevice
刪除設備
sp_pkeys
查看主鍵
sp_fkeys
查看外鍵
sp_helpdb
查看指定資料庫相關文件信息
sp_addtype
自建數據類型
sp_droptype
刪除自建數據類型
sp_rename
重新命名資料庫
sp_executesql
執行SQL語句
sp_addlogin
添加登陸
sp_droplogin
刪除登錄
sp_grantdbaccess
把用戶映射到登錄,即添加一個資料庫安全帳戶並授予塔訪問許可權
sp_revokedbaccess
撤銷用戶的數據訪問權,即從資料庫中刪除一個安全帳戶
sp_addrole
添加角色
sp_addrolemember
向角色中添加成員,使其成為資料庫角色的成員
sp_addsrvrolemember
修改登錄使其成為固定伺服器角色的成員
sp_grantlogin
允許使用組帳戶或系統用戶使用Windows身份驗證連接到SQL
sp_defaultdb
修改一個登錄的默認資料庫
sp_helpindex
用於查看錶的索引
sp_cursoropen
定義與游標和游標選項相關的SQL語句,然後生成游標
sp_cursorfetch
從游標中提取一行或多行
sp_cursorclose
關閉並釋放游標
sp_cursoroption
設置各種游標選項
sp_cursor
用於請求定位更新
sp_cursorprepare
把與游標有關的T-SQL語句或批處理編譯成執行計劃,但並不創建游標
sp_cursorexecute
從由sp_cursorprepare創建的執行計劃中創建並填充游標
sp_cursorunprepare
廢棄由sp_cursorprepare生成的執行計劃
sp_settriggerorder
指定第一個或最後一個激發的、與表關聯的AFTER 觸發器。在第一個和最後一個觸發器之間激發的AFTER 觸發器將按未定義的順序執行
sp_start_job
立即啟動自動化任務
sp_stop_job
停止正在執行的自動化任務