壓縮鏡
『壹』 如何有效地壓縮鏡像體積並縮短構建時間
時至今日,大家已經能夠從多種Docker支持的存儲驅動程序中做出選擇,從而確保其與我們的實際環境以及用例切實吻合——然而,除非深入理解鏡像層(更不用提鏡像與容器本身),否則一般用戶根本不會考慮這方面問題。很明顯,這些簡單而且缺乏吸引力的技術元素層雖然是構成鏡像的基本條件,但卻往往得不到高度關注——因為閃亮的新型工具往往比基本信息更能抓人眼球。
在今天的文章中,我們將探討鏡像體積及構建時間方面的話題——而這兩項工作也已經成為用戶們迫切需要實現的目標。
讓我們首先著眼於鏡像與層,對其概念加以闡述:
Docker鏡像是一套由只讀層外加部分元數據構成的標簽化結構。
每個層都擁有自己的UUID,而且每個連續層都建立在其下的層之上。
每個Dockerfile指令都會生成一個新層。
看起來基本理念非常簡單,且不需要再做過多解釋,不過我曾經遇上過這樣一個讓人如墜霧里的Dockerfile:
FROM centos:7.1.1503
RUN yum -y install java-1.8.0-openjdk-devel-1:1.8.0.65-2.b17.el7_1.x86_64
RUN yum clean all
這個Dockerfile到底出了什麼問題?這個嘛,其中第二個RUN命令並沒能真正影響到鏡像體積——雖然它看起來確實應該有效削減鏡像大小。讓我們重新審視Docker鏡像與層的定義,並著重強調其中的語法表達:
Docker鏡像是一套由只讀層外加部分元數據構成的標簽化結構。
每個層都擁有自己的UUID,而且每個連續層都建立在其下的層之上。
每個Dockerfile指令都會生成一個新層。
現在,可以明確看到該Dockerfile並沒能優化鏡像體積。無論如何,讓我們進行深入探討,看看這些yum緩存是如何被從鏡像層當中移除出去的。
不過為了保證文章淺顯易懂的特性,我們首先將關注范疇限定在AUFS存儲驅動程序身上。AUFS存儲驅動程序能夠添加一個疏排文件以覆蓋鏡像中底部只讀層內文件的存在,從而將其從層內刪除出去。除此之外,大家可以推斷出鏡像的大小相當於各層體積的總和,而添加到Dockerfile中的每條附加指令都會進一步增加鏡像的體積。
只要將兩項RUN指令加以合並,我們就能輕松對上面提到的Dockfile進行修復:
FROM centos:7.1.1503
RUN yum -y install java-1.8.0-openjdk-devel-1:1.8.0.65-2.b17.el7_1.x86_64 &&
yum clean all
下面讓我們構建並檢查這兩套鏡像以證明其瘦身效果。大家需要執行docker build -t 以在Dockerfile所容納的目錄當中構建一套鏡像。在此之後,我們會發現兩套鏡像的體積有所不同:
$ docker images
REPOSITORY TAG IMAGE ID CREATED VIRTUAL SIZE
combined-layers latest defa7a199555 4 seconds ago 407 MB
separate-layers latest b605eff36c7b About a minute ago 471.8 MB
大家應該能夠輕松判斷哪套鏡像是通過哪個Dockerfile構建而成,但讓我們進一步查看兩套鏡像各自包含的層:
$ docker history --no-trunc separate-layers
IMAGE CREATED CREATED BY SIZE
2 minutes ago /bin/sh -c yum clean all 2.277 MB
2 minutes ago /bin/sh -c yum -y install java-1.8.0-openjdk-devel-1:1.8.0.65-2.b17.el7_1.x86_64 257.5 MB
8 weeks ago /bin/sh -c #(nop) CMD ["/bin/bash"] 0 B
8 weeks ago /bin/sh -c #(nop) ADD file: in / 212.1 MB
7 months ago /bin/sh -c #(nop) MAINTAINER The CentOS Project - ami_creator 0 B
$ docker history --no-trunc combined-layers
IMAGE CREATED CREATED BY SIZE
48 seconds ago /bin/sh -c yum -y install java-1.8.0-openjdk-devel-1:1.8.0.65-2.b17.el7_1.x86_64 && yum clean all 195 MB
8 weeks ago /bin/sh -c #(nop) CMD ["/bin/bash"] 0 B
8 weeks ago /bin/sh -c #(nop) ADD file: in / 212.1 MB
7 months ago /bin/sh -c #(nop) MAINTAINER The CentOS Project - ami_creator 0 B
這清楚地表明鏈式命令能幫助我們在對各層進行提交前進行清理工作,不過這並不意味著我們應當將一切都塞進單一層當中。如果大家重新審視以上命令的輸出結果,就會發現兩套鏡像的3個最底層擁有著同樣的UUID,這意味著兩套鏡像共享這些層(有鑒於此,docker images命令才能夠報告各鏡像的虛擬體積)。
有人可能會說,如今磁碟空間的使用成本已經如此低廉,我們真的有必要如此糾結於所謂鏡像體積嗎?但除了緩存鏡像層之外,大家還有其它方面需要關注。其中最重要的一點在於鏡像的構建時間。簡單來講,如果大家能夠復用某個層,則無需對其進行重新構建。另外,如果大家的鏡像需要通過網路進行傳輸(例如在流程中分階段進行構建推進),那麼更為袖珍的鏡像體積與緩存層運用能夠顯著節約傳輸時長(並降低網路流量負載),因為需要實際傳輸的鏡像層中有相當一部分已經被整合在新版本鏡像當中。
現在結論已經顯而易見,大家應當盡可能減少Dockerfile頂層的指令數量,從而提高緩存復用比例並努力著眼於底層對Dockerfile進行變更。
考慮到以上各項因素,有些朋友可以認為優化程度最高的解決方案應當是將全部發生變更的元素塞進各自不同的層當中,從而清理每個層的執行流程; 但一般來講,這種作法並不會簡化工作負擔。首先,Docker對層數做出了限制,即不可超過127個,而且大家最好與上限之間保持一定距離。包含有大量層的Dockerfile既不易於後期維護,也不太可能排除那些不必要的數據; 相反,其結果是我們會面對一套非常臃腫的鏡像,且最好將其拆分成多個不同鏡像。而更重要的是,層的實現並非毫無成本,具體取決於我們使用的存儲驅動程序,由此造成的額外負擔也有所區別。舉例來說,在AUFS當中,每個層都會在面向鏡像層堆棧中各現有文件的首次寫入時給容器寫入性能造成延遲,特別在文件體積龐大且存在於大量鏡像層之下的情況當中。
因此在文章最後,我們需要再次強調:要想切實提升鏡像體積優化效果並壓縮構建時間,大家必須了解自己想要優化什麼,並有意識地做出必要妥協。
1. 如果大家需要了解或者深入掌握容器中的層概念,請點擊此處查看Docker說明文檔。
2. 查看存儲驅動程序說明文檔以了解與其性能表現相關的各項細節信息。
3. 如果大家發現自己需要處理高強度寫入工作負載,可以考慮使用數據分卷(它們會繞開存儲驅動程序)。