當前位置:首頁 » 操作系統 » datax源碼

datax源碼

發布時間: 2023-09-30 22:47:32

1. 如何使用python來執行 datax

1、檢出DataX源碼(git clone https://github.com/alibaba/DataX.git DataX),導入項目,新建一個eswriter的maven項目進行插件開發。
2、在DataX安裝目錄的plugins/writer目錄下新建eswriter目錄,目錄下包含plugin_job_template.json、plugin.json、eswriter-0.0.1-SNAPSHOT.jar,同時在目錄下創建一個libs目錄,存放相關依賴的jar文件。

2. 大數據主要學習什麼知識

分享大數據學習路線:

第一階段為JAVASE+MYsql+JDBC

主要學習一些Java語言的概念,如字元、流程式控制制、面向對象、進程線程、枚舉反射等,學習MySQL資料庫的安裝卸載及相關操作,學習JDBC的實現原理以及Linux基礎知識,是大數據剛入門階段。

第二階段為分布式理論簡介

主要講解CAP理論、數據分布方式、一致性、2PC和3PC、大數據集成架構。涉及的知識點有Consistency一致性、Availability可用性、Partition
tolerance分區容忍性、數據量分布、2PC流程、3PC流程、哈希方式、一致性哈希等。

第三階段為數據存儲與計算(離線場景)

主要講解協調服務ZK(1T)、數據存儲hdfs(2T)、數據存儲alluxio(1T)、數據採集flume、數據採集logstash、數據同步Sqoop(0.5T)、數據同步datax(0.5T)、數據同步mysql-binlog(1T)、計算模型MR與DAG(1T)、hive(5T)、Impala(1T)、任務調度Azkaban、任務調度airflow等。

第四部分為數倉建設

主要講解數倉倉庫的歷史背景、離線數倉項目-伴我汽車(5T)架構技術解析、多維數據模型處理kylin(3.5T)部署安裝、離線數倉項目-伴我汽車升級後加入kylin進行多維分析等;

第五階段為分布式計算引擎

主要講解計算引擎、scala語言、spark、數據存儲hbase、redis、ku,並通過某p2p平台項目實現spark多數據源讀寫。

第六階段為數據存儲與計算(實時場景)

主要講解數據通道Kafka、實時數倉druid、流式數據處理flink、SparkStreaming,並通過講解某交通大數讓你可以將知識點融會貫通。

第七階段為數據搜索

主要講解elasticsearch,包括全文搜索技術、ES安裝操作、index、創建索引、增刪改查、索引、映射、過濾等。

第八階段為數據治理

主要講解數據標准、數據分類、數據建模、圖存儲與查詢、元數據、血緣與數據質量、Hive Hook、Spark Listener等。

第九階段為BI系統

主要講解Superset、Graphna兩大技術,包括基本簡介、安裝、數據源創建、表操作以及數據探索分析。

第十階段為數據挖掘

主要講解機器學習中的數學體系、Spark Mlib機器學習演算法庫、Python scikit-learn機器學習演算法庫、機器學習結合大數據項目。

對大數據分析有興趣的小夥伴們,不妨先從看看大數據分析書籍開始入門!B站上有很多的大數據教學視頻,從基礎到高級的都有,還挺不錯的,知識點講的很細致,還有完整版的學習路線圖。也可以自己去看看,下載學習試試。

熱點內容
冒險島按鍵精靈腳本下載 發布:2025-01-23 19:46:50 瀏覽:751
安卓訪問共享需要開通什麼服務 發布:2025-01-23 19:43:01 瀏覽:518
vs2015c語言調試 發布:2025-01-23 19:42:47 瀏覽:142
山西認證伺服器連接不上雲伺服器 發布:2025-01-23 19:38:26 瀏覽:442
linux中斷驅動 發布:2025-01-23 19:34:07 瀏覽:757
金佰鑫密碼鎖的設置鍵在哪裡 發布:2025-01-23 19:34:07 瀏覽:933
出資料庫 發布:2025-01-23 19:33:27 瀏覽:273
壓縮天然氣運輸車價格 發布:2025-01-23 19:31:46 瀏覽:938
c語言if函數用法 發布:2025-01-23 19:17:28 瀏覽:626
java多線程練習題 發布:2025-01-23 19:01:27 瀏覽:102