kettlesql變數值

發布時間: 2022-12-17 09:25:36

㈠ kettle設置了一個變數，執行第一次的時候提示出現不支持的sql92，然後再運行一次job變數就正常使用了

1. Join
我得到A 數據流（不管是基於文件或資料庫），A包含field1 , field2 , field3 欄位，然後我還有一個B數據流，B包含field4 , field5 , field6 , 我現在想把它們『加』起來, 應該怎麼樣做.
這是新手最容易犯錯的一個地方，A數據流跟B數據流能夠Join，肯定是它們包含join key ,join key 可以是一個欄位也可以是多個欄位。如果兩個數據流沒有join key ,那麼它們就是在做笛卡爾積，一般很少會這樣。比如你現在需要列出一個員工的姓名和他所在部門的姓名，如果這是在同一個資料庫，大家都知道會在一個sql 裡面加上where 限定條件，但是如果員工表和部門表在兩個不同的數據流裡面，尤其是數據源的來源是多個資料庫的情況，我們一般是要使用Database Join 操作，然後用兩個database table input 來表示輸入流，一個輸入是部門表的姓名，另一個是員工表的姓名，然後我們認為這兩個表就可以」Join」了，我們需要的輸出的確是這兩個欄位，但是這兩個欄位的輸出並不代表只需要這兩個欄位的輸入，它們之間肯定是需要一個約束關系存在的。另外，無論是在做 Join , Merge , Update , Delete 這些常規操作的時候，都是先需要做一個compare 操作的，這個compare 操作都是針對compare key 的，無論兩個表結構是不是一樣的，比如employee 表和department 表，它們比較的依據就是employee 的外鍵department_id , 沒有這個compare key 這兩個表是不可能連接的起來的.. 對於兩個表可能還有人知道是直接sql 來做連接，如果是多個輸入數據源，然後是三個表，有人就開始迷茫了，A表一個欄位，B表一個欄位，C表一個欄位，然後就連Join操作都沒有，直接 database table output , 然後開始報錯，報完錯就到處找高手問，他們的資料庫原理老師已經在吐血了。如果是三個表連接，一個sql 不能搞定，就需要先兩個表兩個表的連接，通過兩次compare key 連接之後得到你的輸出，記住，你的輸出並不能代表你的輸入. 下面總結一下:
1. 單數據源輸入，直接用sql 做連接
2. 多數據源輸入，（可能是文本或是兩個以上源資料庫），用database join 操作.
3. 三個表以上的多欄位輸出.
2. Kettle的資料庫連接模式
Kettle的資料庫連接是一個步驟裡面控制一個單資料庫連接，所以kettle的連接有資料庫連接池，你可以在指定的資料庫連接裡面指定一開始連接池裡面放多少個資料庫連接，在創建資料庫連接的時候就有Pooling 選項卡，裡面可以指定最大連接數和初始連接數，這可以一定程度上提高速度.
3. transaction
我想在步驟A執行一個操作（更新或者插入），然後在經過若干個步驟之後，如果我發現某一個條件成立，我就提交所有的操作，如果失敗，我就回滾，kettle提供這種事務性的操作嗎？
Kettle 裡面是沒有所謂事務的概念的，每個步驟都是自己管理自己的連接的，在這個步驟開始的時候打開資料庫連接，在結束的時候關閉資料庫連接，一個步驟是肯定不會跨session的（資料庫裡面的session）, 另外，由於kettle是並行執行的，所以不可能把一個資料庫連接打開很長時間不放，這樣可能會造成鎖出現，雖然不一定是死鎖，但是對性能還是影響太大了。ETL中的事務對性能影響也很大，所以不應該設計一種依賴與事務方式的ETL執行順序，畢竟這不是OLTP，因為你可能一次需要提交的數據量是幾百 GB都有可能，任何一種資料庫維持一個幾百GB的回滾段性能都是會不大幅下降的.
4. 我真的需要transaction 但又不想要一個很復雜的設計，能不能提供一個簡單一點的方式
Kettle 在3.0.2GA版中將推出一種新功能，在一個table output 步驟中有一個Miscellaneous 選項卡，其中有一個Use unique connections 的選項，如果你選中的話就可以得到一個transaction 的簡單版，
由於是使用的單資料庫連接，所以可以有錯誤的時候回滾事務，不過要提醒一點是這種方式是以犧牲非常大的性能為前提條件的，對於太大的數據量是不適合的(個人仍然不建議使用這種方式)
5. temporary 表如何使用
我要在ETL過程中創建一個中間表，當某個條件成立的時候，我要把中間表的數據進行轉換，當另一條件成立的時候我要對中間表進行另一個操作，我想使用資料庫的臨時表來操作，應該用什麼步驟。
首先從temp 表的生命周期來分，temp分為事務臨時表和會話臨時表，前面已經解釋過了，kettle是沒有所謂事務的概念的，所以自然也沒有所謂的事務臨時表。 Kettle的每個步驟管理自己的資料庫連接，連接一結束，kettle也就自然丟掉了這個連接的session 的handler , 沒有辦法可以在其他步驟拿回這個session 的handler , 所以也就不能使用所謂的會話臨時表，當你嘗試再開一個連接的時候，你可以連上這個臨時表，但是你想要的臨時表裡面的數據都已經是空的(數據不一定被清除了，但是你連不上了)，所以不要設計一個需要使用臨時表的轉換
之所以會使用臨時表，其實跟需要」事務」特性有一點類似，都是希望在ETL過程中提供一種緩沖。臨時表很多時候都不是某一個源表的全部數據的鏡像，很多時候臨時表都是很小一部分結果集，可能經過了某種計算過程，你需要臨時表無非是基於下面三個特性：
1. 表結構固定，用一個固定的表來接受一部分數據。
2. 每次連接的時候裡面沒有數據。你希望它接受數據，但是不保存，每次都好像執行了truncate table 操作一樣
3. 不同的時候連接臨時表用同一個名字，你不想使用多個連接的時候用類似與temp1 , temp2 , temp3 , temp4 這種名字，應為它們表結構一樣。
既然臨時表不能用，應該如何設計ETL過程呢？（可以用某種詭異的操作搞出臨時表，不過不建議這樣做罷了）
如果你的ETL過程比較的單線程性，也就是你清楚的知道同一時間只有一個這樣的表需要，你可以創建一個普通的表，每次連接的時候都執行truncate 操作，不論是通過table output 的truncate table 選項，還是通過手工執行truncate table sql 語句（在execute sql script 步驟）都可以達到目的（基於上面的1，2 特性）
如果你的ETL操作比較的多線程性，同一時間可能需要多個表結構一樣並且裡面都是為空的表（基於上面1，2，3特性），你可以創建一個「字元串+序列」的模式，每次需要的時候，就創建這樣的表，用完之後就刪除，因為你自己不一定知道你需要多少個這種類型的表，所以刪除會比truncate 好一些。
下面舉個例子怎麼創建這種表：
你可以使用某種約定的表名比如department_temp 作為department 的臨時表。或者
把argument 傳到表名，使用 department_${argument} 的語法，
如果你需要多個這種表，使用一個sequence 操作+execute sql script 操作，execute sql script 就下面這種模式
Create table_? (…………..)
在表的名字上加參數，前面接受一個sequence 或類似的輸入操作.
需要注意的是這種參數表名包括database table input 或者execute sql script ，只要是參數作為表名的情況前面的輸入不能是從資料庫來的,應為沒有辦法執行這種preparedStatement 語句，從資料庫來的值後面的操作是「值操作」 ,而不是字元串替換，只有argument 或者sequence 操作當作參數才是字元串替換. (這一點官方FAQ也有提到)

㈡如何在kettle作業中設置參數

1、首先，我們先打開KETTLE，進入軟體的主界面後，我們可以先創建一個作業或者轉換，然後雙擊空白處。
2、我們即可呼出作業或者轉換屬性窗口，我們在選項卡中國選擇「命名參數」，用戶填寫您所需要設置的命名參數以及默認值，支持添加描述。
3、這里，我們以表輸入功能作為例子，我們打開資料庫連接，然後可以使用對應的參數，我們設置主機名稱、資料庫名稱等一系列參數，然後輸入密碼，若用戶的密碼需要使用參數，勾選密碼下的Use Result Streaming Cursor選項。
4、然後，用戶即可配置的作業中可以使用相應的參數，住的注意的是參數名稱要與設置的參數名稱一致，還需要·點選替換SQL語句里的變數。
5、用戶按照下圖所示進行輸入相應參數，點擊啟動按鈕即可配置完成。

㈢如何給一個 Kettle 轉換設置變數和命令行參數

1. 變數的類型
Kettle 的早期版本中的變數只有系統環境變數
目前版本中(3.1) 變數包括系統環境變數, "Kettle變數" 和內部變數三種系統環境變數的影響范圍很廣,凡是在一個 JVM下運行的線程都受其影響.Kettle 變數限制了變數的作用范圍, 變數范圍包括三種分別是 grand-parent job, parent job, root job 內部變數: 是 kettle 內置的一些變數, 主要是kettle 運行時依賴的環境, 如轉換文件名稱, 轉換路徑,ip地址, kettle 版本號等等.2. 變數的設置
"系統環境變數" 有三種設置方式
1) 通過命令行 -D 參數
2) 屬性文件 kettle.property 中設置, 該屬性文件位於 ${user.home}.kettle 下
3) 通過設置環境變數步驟 (Set Variable) 設置."Kettle 變數" 只能通過設置環境變數 (Set Variable) 步驟設置,同時設置變數的作用范圍.
"內部變數" 是預置的無須設置.3. 變數的使用
無論哪種類型的變數在使用上都是一樣的, 有兩種方式
1) 通過 %%var%% 或 ${var} 來引用, 這個引用可以用在 SQL 語句中, 也可以用在允許變數輸入的輸入框里.
2) 通過獲取變數 (Get Variable) 步驟來使用命令行參數:
1. 設置: 命令行參數通過獲取系統信息(Get System Info) 步驟設置, 在使用時可以像列名一樣來使用,不必像變數一樣要通過 ${var} 這樣的格式引用. 用戶最多可以設置10個命令行參數
2. 傳遞: 命令行下使用 pan /file:xxx.ktr arg1 arg2 來傳遞參數.圖形界面下,每次運行時有要求輸入參數的提示窗口.

閱讀全文

熱點內容

ajax跨域訪問wcf 發布：2025-01-24 21:08:21 瀏覽：662

iphonecpp編譯器發布：2025-01-24 21:05:52 瀏覽：201

androidsdk接入發布：2025-01-24 20:54:14 瀏覽：193

我的世界伺服器如何使用路由器映射發布：2025-01-24 20:49:30 瀏覽：739

腳本操作瀏覽器發布：2025-01-24 20:41:40 瀏覽：296

fast自動獲取ip地址伺服器無響應發布：2025-01-24 20:19:13 瀏覽：710

http加密數據發布：2025-01-24 20:15:00 瀏覽：100

中國存儲行業排名發布：2025-01-24 20:02:21 瀏覽：422

arm編譯鏈發布：2025-01-24 19:42:12 瀏覽：700

linuxc的函數返回值發布：2025-01-24 19:35:23 瀏覽：665

kettlesql變數值

與kettlesql變數值相關的資訊