當前位置:首頁 » 存儲配置 » 抖音每天產生的海量數據如何存儲

抖音每天產生的海量數據如何存儲

發布時間: 2024-04-11 00:13:00

⑴ 互聯網如何海量存儲數據

目前存儲海量數據的技術主要包括NoSQL、分布式文件系統、和傳統關系型資料庫。隨著互聯網行業不斷的發展,產生的數據量越來越多,並且這些數據的特點是半結構化和非結構化,數據很可能是不精確的,易變的。這樣傳統關系型資料庫就無法發揮它的優勢。因此,目前互聯網行業偏向於使用NoSQL和分布式文件系統來存儲海量數據。

下面介紹下常用的NoSQL和分布式文件系統。
NoSQL
互聯網行業常用的NoSQL有:HBase、MongoDB、Couchbase、LevelDB。

HBase是Apache Hadoop的子項目,理論依據為Google論文 Bigtable: A Distributed Storage System for Structured Data開發的。HBase適合存儲半結構化或非結構化的數據。HBase的數據模型是稀疏的、分布式的、持久穩固的多維map。HBase也有行和列的概念,這是與RDBMS相同的地方,但卻又不同。HBase底層採用HDFS作為文件系統,具有高可靠性、高性能。

MongoDB是一種支持高性能數據存儲的開源文檔型資料庫。支持嵌入式數據模型以減少對資料庫系統的I/O、利用索引實現快速查詢,並且嵌入式文檔和集合也支持索引,它復制能力被稱作復制集(replica set),提供了自動的故障遷移和數據冗餘。MongoDB的分片策略將數據分布在伺服器集群上。

Couchbase這種NoSQL有三個重要的組件:Couchbase伺服器、Couchbase Gateway、Couchbase Lite。Couchbase伺服器,支持橫向擴展,面向文檔的資料庫,支持鍵值操作,類似於SQL查詢和內置的全文搜索;Couchbase Gateway提供了用於RESTful和流式訪問數據的應用層API。Couchbase Lite是一款面向移動設備和「邊緣」系統的嵌入式資料庫。Couchbase支持千萬級海量數據存儲
分布式文件系統
如果針對單個大文件,譬如超過100MB的文件,使用NoSQL存儲就不適當了。使用分布式文件系統的優勢在於,分布式文件系統隔離底層數據存儲和分布的細節,展示給用戶的是一個統一的邏輯視圖。常用的分布式文件系統有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。

相比過去打電話、發簡訊、用彩鈴的「老三樣」,移動互聯網的發展使得人們可以隨時隨地通過刷微博、看視頻、微信聊天、瀏覽網頁、地圖導航、網上購物、外賣訂餐等,這些業務的海量數據都構建在大規模網路雲資源池之上。當14億中國人把衣食住行搬上移動互聯網的同時,也給網路雲資源池帶來巨大業務挑戰。

首先,用戶需求動態變化,傳統業務流量主要是端到端模式,較為穩定;而互聯網流量易受熱點內容牽引,數據流量流向復雜和規模多變:比如雙十一購物狂潮,電商平台訂單創建峰值達到58.3萬筆,要求通信網路提供高並發支持;又如優酷春節期間有超過23億人次上網刷劇、抖音拜年短視頻增長超10倍,需要通信網路能夠靈活擴充帶寬。面對用戶動態多變的需求,通信網路需要具備快速洞察和響應用戶需求的能力,提供高效、彈性、智能的數據服務。

「隨著通信網路管道十倍百倍加粗、節點數從千萬級逐漸躍升至百億千億級,如何『接得住、存得下』海量數據,成為網路雲資源池建設面臨的巨大考驗」,李輝表示。一直以來,作為新數據存儲首倡者和引領者,浪潮存儲攜手通信行業用戶,不斷 探索 提速通信網路雲基礎設施的各種姿勢。

早在2018年,浪潮存儲就參與了通信行業基礎設施建設,四年內累計交付約5000套存儲產品,涵蓋全快閃記憶體儲、高端存儲、分布式存儲等明星產品。其中在網路雲建設中,浪潮存儲已連續兩年兩次中標全球最大的NFV網路雲項目,其中在網路雲二期建設中,浪潮存儲提供數千節點,為上層網元、應用提供高效數據服務。在最新的NFV三期項目中,浪潮存儲也已中標。

能夠與通信用戶在網路雲建設中多次握手,背後是浪潮存儲的持續技術投入與創新。浪潮存儲6年內投入超30億研發經費,開發了業界首個「多合一」極簡架構的浪潮並行融合存儲系統。此存儲系統能夠統籌管理數千個節點,實現性能、容量線性擴展;同時基於浪潮iTurbo智能加速引擎的智能IO均衡、智能資源調度、智能元數據管理等功能,與自研NVMe SSD快閃記憶體檔進行系統級別聯調優化,讓百萬級IO均衡落盤且路徑更短,將存儲系統性能發揮到極致。

「為了確保全球最大規模的網路雲正常上線運行,我們聯合用戶對存儲集群展開了長達數月的魔鬼測試」,浪潮存儲工程師表示。網路雲的IO以虛擬機數據和上層應用數據為主,浪潮按照每個存儲集群支持15000台虛機進行配置,分別對單卷隨機讀寫、順序寫、混合讀寫以及全系統隨機讀寫的IO、帶寬、時延等指標進行了360無死角測試,達到了通信用戶提出的單卷、系統性能不低於4萬和12萬IOPS、時延小於3ms的要求,產品成熟度得到了驗證。

以通信行業為例,2020年全國移動互聯網接入流量1656億GB,相當於中國14億人每人消耗118GB數據;其中春節期間,移動互聯網更是創下7天消耗36億GB數據流量的記錄,還「捎帶」打了548億分鍾電話、發送212億條簡訊……海量實時數據洪流,在網路雲資源池(NFV)支撐下收放自如,其中分布式存儲平台發揮了作用。如此樣板工程,其巨大示範及拉動作用不言而喻。

⑵ 抖音存儲數據是什麼

抖音內存數據是平時瀏覽看視頻的緩存

抖音(Tik Tok)是由今日頭條推出的一款短視頻分享APP,於2016年9月上線,是一個專注於年輕人音樂短視頻創作分享的社區平台。

抖音應用人工智慧技術為用戶創造多樣的玩法,用戶可以通過這款軟體選擇歌曲,拍攝音樂短視頻,形成自己的作品。

存儲介質

磁碟和磁帶都是常用的存儲介質。數據存儲組織方式因存儲介質而異。在磁帶上數據僅按順序文件方式存取;在磁碟上則可按使用要求採用順序存取或直接存取方式。

數據存儲方式與數據文件組織密切相關,其關鍵在於建立記錄的邏輯與物理順序間對應關系,確定存儲地址,以提高數據存取速度。

雖然企業總體網路規模較大,但在地理分布上很分散,通過SAN或NAS在它們之間進行互聯非常困難,此時各分支機構的伺服器也可採用DAS存儲方式,這樣可以降低成本。

⑶ 區塊鏈分布式存儲:生態大數據的存儲新模式

區塊鏈,當之無愧的2019最靚的詞,在 科技 領域閃閃發亮,在實體行業星光熠熠。

2019年的1024講話,讓區塊鏈這個詞煥然一新,以前它總是和傳銷和詐騙聯系在一起,「區塊鏈」這個詞總是蒙上一層灰色。但是如今,區塊鏈則是和實體經濟融合緊密相連,成為國家的戰略技術, 這個詞瞬間閃耀著熱情的紅色和生意盎然的綠色

「產業區塊鏈」在這個時代背景下應運而生, 是繼「互聯網」後的又一大熱門詞彙,核心就是區塊鏈必須和實體產業融合,脫虛向實,讓區塊鏈技術找到更多業務場景才是正道。

區塊鏈的本質就是一個資料庫,而且是採用的分布式存儲的方式。作為一名區塊鏈從業者,今天就來講講 區塊鏈的分布式存儲和生態大數據 結合後,碰撞產生的火花。

當前的存儲大多為中心化存儲,存儲在傳統的中心化伺服器。如果伺服器出現宕機或者故障,或者伺服器停止運營,則很多數據就會丟失。

比如我們在微信朋友圈發的圖片,在抖音上傳的視頻等等,都是中心化存儲。很多朋友會把東西存儲在網上,但是某天打開後,網頁呈現404,則表示存儲的東西已經不見了。

區塊鏈,作為一個分布式的資料庫,則能很好解決這方面的問題。這是由區塊鏈的技術特徵決定了的。 區塊鏈上的數字記錄,不可篡改、不可偽造,智能合約讓大家更高效地協同起來,從而建立可信的數字經濟秩序,能夠提高數據流轉效率,打破數據孤島,打造全新的存儲模式。

生態大數據,其實和我們每天的生活息息相關,比如每天的天氣預報,所吃的農產品的溯源數據等等,都是生態大數據的一部分。要來談這個結合,首先咱們來看看生態大數據存儲的特點。

伴隨著互聯網的發展,當前,生態大數據在存儲方面有具有如下特點:

從數據規模來看,生態數據體量很大,數據已經從TB級躍升到了PB級別。

隨著各類感測器技術、衛星遙感、雷達和視頻感知等技術的發展,數據不僅來源於傳統人工監測數據,還包括航空、航天和地面數據,他們一起產生了海量生態環境數據。近10年以來,生態數據以每年數百個TB的數據在增長。

生態環境大數據需要動態新數據和 歷史 數據相結合來處理,實時連續觀測尤為重要。只有實時處理分析這些動態新數據,並與已有 歷史 數據結合起來分析,才能挖掘出有用信息,為解決有關生態環境問題提供科學決策。

比如在當前城市建設中,提倡的生態環境修復、生態模型建設中,需要大量調用生態大數據進行分析、建模和制定方案。但是目前很多 歷史 數據因為存儲不當而消失,造成了數據的價值的流失。

既然生態大數據有這些特點,那麼它有哪些存儲需求呢?

當前,生態大數據面臨嚴重安全隱患,強安全的存儲對於生態大數據而言勢在必行。

大數據的安全主要包括大數據自身安全和大數據技術安全,比如在大數據的數據存儲中,由於黑客外部網路攻擊和人為操作不當造成數據信息泄露。外部攻擊包括對靜態數據和動態數據的數據傳輸攻擊、數據內容攻擊、數據管理和網路物理攻擊等。

例如,很多野外生態環境監測的海量數據需要網路傳輸,這就加大了網路攻擊的風險。如果涉及到軍用的一些生態環境數據,如果被黑客獲得這些數據,就可能推測到我國軍方的一些信息,或者獲取敏感的生態環境數據,後果不堪設想。

生態大數據的商業化應用需要整合集成政府、企業、科研院所等 社會 多來源的數據。只有不同類型的生態環境大數據相互連接、碰撞和共享,才能釋放生態環境大數據的價值。

以當前的智慧城市建設為例,很多城市都在全方位、多維度建立知識產權、種質資源、農資、農產品、病蟲害疫情等農業信息大數據中心,為農業產供銷提供全程信息服務。建設此類大數據中心,離不開各部門生態大數據的共享。

但是,生態大數據共享面臨著巨大挑戰。首先,我國生態環境大數據包括氣象、水利、生態、國土、農業、林業、交通、 社會 經濟等其他部門的大數據,涉及多領域多部門和多源數據。雖然目前這些部門已經建立了自己的數據平台,但這些平台之間互不連通,只是一個個的數據孤島。

其次,相關部門因為無法追蹤數據的軌跡,擔心數據的利益歸屬問題,便無法實現數據的共享。因此,要想挖掘隱藏在生態大數據背後的潛在價值,實現安全的數據共享是關鍵,也是生態大數據產生價值的前提和基礎。

生態大數據來之不易,是研究院所、企業、個人等 社會 來源的集體智慧。

其中,很多生態大數據涉及到了知識產權的保護。但是目前的中心化存儲無法保證知識產權的保護,無法對數據的使用進行溯源管理,容易造成知識產權的侵犯和隱私數據的泄露。

這些就是生態大數據在存儲方面的需求。在當前產業區塊鏈快速發展的今天,區塊鏈的分布式存儲是可以為生態大數據存儲提供全新的存儲方式的。 這個核心前提就是區塊鏈的分布式存儲、不可篡改和數據追蹤特性

把區塊鏈作為底層技術,搭建此類平台,專門存儲生態大數據,可以設置節點管理、存儲管理、用戶管理、許可管理、業務通道管理等。針對上層業務應用提供高可用和動態擴展的區塊鏈網路底層服務的實現。在這個平台的應用層,可以搭建API介面,讓整個平台的使用靈活可擴展。區塊鏈分布式存儲有如下特點:

利用區塊鏈的分布式存儲,能夠實現真正的生態大數據安全存儲。

首先,數據永不丟失。這點對於生態大數據的 歷史 數據特別友好,方便新老數據的調用和對比。

其次,數據不易被泄露或者攻擊。因為數據採取的是分布式存儲,如果遭遇攻擊,也只能得到存儲在部分節點里的數據碎片,無法完全獲得完整的數據信息或者數據段。

區塊鏈能夠實現生態數據的存儲即確權,這樣就能夠避免知識產權被侵害,實現安全共享。畢竟生態大數據的獲取,是需要生態工作者常年在野外駐守,提取數據的。

生態大數據來之不易,是很多生態工作者的工作心血和結晶,需要得到產權的保護,讓數據體現出應用價值和商業價值,保護生態工作者的工作動力,讓他們能夠深入一線,採集出更多優質的大數據。

同時,利用區塊鏈的數據安全共享機制,也能夠打破氣象、林業、濕地等部門的數據壁壘,構建安全可靠的數據共享機制,讓數據流轉更具價值。

現在有部分生態工作者,為了牟取私利,會將生態數據篡改。如果利用區塊鏈技術,則沒有那麼容易了。

利用加密技術,把存儲的數據放在分布式存儲平台進行加密處理。如果生態大數據發生變更,平台就可以記錄其不同版本,便於事後追溯和核查。

這個保護機制主要是利用了數據的不可篡改,滿足在使用生態大數據的各類業務過程中對數據的安全性的要求。

區塊鏈能夠對數據提供安全監控,記錄應用系統的操作日誌、資料庫的操作日誌數據,並加密存儲在系統上,提供日誌預警功能,對於異常情況通過區塊鏈瀏覽器展示出來,便於及時發現違規的操作和提供證據。

以上就是區塊鏈的分布式存儲能夠在生態大數據方面所起的作用。未來,肯定會出現很多針對生態大數據存儲的平台誕生。

生態大數據是智慧城市建設的重要基礎資料 ,引用區塊鏈技術,打造相關的生態大數據存儲和管理平台,能夠保證生態大數據的安全存儲和有效共享,為智慧城市建設添磚加瓦,推動產業區塊鏈的發展。

作者:Justina,微信公眾號:妙譯生花,從事於區塊鏈運營,擅長內容運營、海外媒體運營。

題圖來自Unsplash, 基於CC0協議。

熱點內容
電腦當伺服器怎麼降低功耗 發布:2024-11-27 15:30:45 瀏覽:641
蘋果手機誇克緩存的視頻怎麼轉為本地視頻 發布:2024-11-27 15:24:05 瀏覽:810
linuxm4 發布:2024-11-27 15:15:12 瀏覽:321
演算法交易現狀 發布:2024-11-27 15:05:49 瀏覽:825
搜同網伺服器為什麼登錄不上 發布:2024-11-27 15:05:41 瀏覽:287
如何讓無線網速變快華為安卓手機 發布:2024-11-27 15:04:13 瀏覽:595
cod17編譯著色器卡住c盤滿了 發布:2024-11-27 14:55:56 瀏覽:386
鎖機軟體反編譯 發布:2024-11-27 14:36:02 瀏覽:148
欣才php培訓中心 發布:2024-11-27 14:35:57 瀏覽:938
RDB演算法 發布:2024-11-27 14:26:57 瀏覽:137