流式資料庫

發布時間: 2022-09-24 17:42:25

『壹』流式資料庫對批式資料庫的優點

優點如下:
1.流式資料庫適合更小的儲存。
2.在流式數據處理模式里，數據持續到達，系統及時處理新到達的數據，並不斷產生輸出。處理過的數據一般丟棄掉，當然也可以保存起來。流式數據處理模式強調數據處理的速度。部分原因是數據產生的速度很快，需要及時進行處理。由於流式數據處理系統能夠對新到達的數據進行及時的處理，所以它能夠給決策者提供最新的事物發展變化的趨勢，以便對突發事件進行及時響應，調整應對措施。
資料庫是「按照數據結構來組織、存儲和管理數據的倉庫」。是一個長期存儲在計算機內的、有組織的、可共享的、統一管理的大量數據的集合。

『貳』關於三級資料庫

http://learning.sohu.com/s2005/4756/s226530790.shtml
一、選擇題（每小題1分，共60分）

下列各題 A) 、B)、C)、D)四個選項中，只有一個選項是正確的，請將正確選項塗寫在答題卡相應位置上，答在試卷上不得分。

1)系統軟體一般包括

Ⅰ.服務性程序 Ⅱ.語言處理程序Ⅲ.操作系統 Ⅳ.資料庫管理系統

A) Ⅰ、Ⅱ和Ⅲ

B) Ⅰ、Ⅲ和Ⅳ

C) Ⅱ、Ⅲ和Ⅳ

D) 全部

(2) 為提高產品質量、降低生產成本，利用計算機控制、操作和管理生產設備的系統稱為

A) CAT系統

B) CAT系統

C) CAD系統

D) CAM系統

(3) 計算機輸出設備的功能是

A）將計算機運算的二進制結果信息列印輸出

B）將計算機內部的二進制信息顯示輸出

C）將計算機運算的二進制結果信息列印輸出和顯示輸出

D) 將計算機內部的二進制信息轉換為人和設備能識別的信息

(4) Internet上的計算機，在通信之前需要

A) 建立主頁

B) 指定一個IP地址

C) 使用WWW服務

D) 發送電子郵件

(5) 信息傳輸的安全應保證信息在網路傳輸的過程中不被泄露和不被攻擊。下列哪些屬於攻擊方法

Ⅰ.復制信息 Ⅱ.剪裁信息 Ⅲ.竊聽信息

A) Ⅰ和Ⅱ

B) Ⅱ和Ⅲ

C) Ⅰ和Ⅲ

D) 全部

(6) 計算機病毒是一種具有破壞性的計算機程序，它是

A) 最初由系統自動生成的程序

B) 具有惡毒內容的文件

C) 具有自我再生能力的程序

D) 只通過網路傳播的文件

(7) 以下關於數據的存儲結構的敘述中哪一條是正確的？

A) 數據的存儲結構是數據間關系的抽象描述

B) 數據的存儲結構是邏輯結構在計算機存儲器中的實現

C) 數據的存儲結構分為線性結構和非線性結構

D) 數據的存儲結構對數據運算的具體實現沒有影響

(8) 以下關於隊列的敘述中哪一條是不正確的？

A) 隊列的特點是先進先出

B) 隊列既能用順序方式存儲，也能用鏈接方式存儲

C) 隊列適用於二叉樹對稱序周遊演算法的實現

D) 隊列適用於樹的層次次序周遊演算法的實現

(9) 單鏈表的每個結點中包括一個指針link，它指向該結點的後繼結點。現要將指針q指向的新結點插入到指針P指向的的單鏈表結點之後，下面的操作序列中哪一個是正確的？
head ~~~~~~~~~~~~~~~
r>~~~~~~~~~~~~p

↓ ~~~~~~~~~~~~~~~~~

~~~~~~~~~~~`↓

align=left>info□ → info□→ info □ → info □ → info□

~~~~~~~~~~~~~~~~~info □

~~~~~~~~~~~~~~~~~~~~↑

~~~~~~~~~~~~~~~~~~~~~~~q

A) q:=p^.link; p^.link:=q^.link;

B) p^.link:=q^.link; q:=p^.link;

C) q^.link:=p^.link;p^link:=q;

D) p^.link:=q; q^.link:=p^.link;

(10) 按行優先順序存儲下三角矩陣的非零元素，則計算非零元素aij(1≤j≤i≤n)的地址的公式為

A) LOC(aij)=LOC(a11)+i×(i+1)/2+j

B) LOC(aij)=LOC(a11)+i×(i+1)/2+(j-1)

C) LOC(aij)=LOC(a11)+i×(i-1)/2+j

D) LOC(aij)=LOC(a11)+i×(i-1)/2+(j-1)

第（11）至（12）題基於下面的敘述：某二叉樹結點的前序序列為E、A、C、B、D、G、F，對稱序序列為A、B、C、D、E、F、G。

(11) 該二叉樹結點的後序序列為

A）B、D、C、A、F、G、E

B）B、D、C、F、A、G、E

C）E、G、F、A、C、D、B

D）E、G、A、C、D、F、B

(12) 該二叉樹對應的樹林包括多少棵樹？

A) 1

B) 2

C）3

D）4

(13) 在順序表（3，6，8，10，12，15，16，18，21，25，30）中，用二分法查找關鍵碼值11，所需的關鍵碼比較次數為

A) 2

B) 3瀀>�?_

C) 4

D) 5

(14) 設散列表的地址空間為0到10，散列函數為h(k)=k mod 11，用線性探查法解決碰撞。現從空的散列表開始，依次插入關鍵碼值95，14，27，68，82，則最後一個關鍵碼82的地址為：

A) 4

B) 5

C) 6

D) 7

(15) 設待排序關鍵碼序列為（25，18，9，33，67，82，53，95，12，70），要按關鍵碼值遞增的順序進行排序，採取以第一個關鍵碼為分界元素的快速排序法，第一趟完成後關鍵碼96被放到了第幾個位置？

A) 7

B) 8

C) 9

D) 10

(16) 下列關於進程間通信的描述中，不正確的是

A) 進程互斥是指每次只允許一個進程使用臨界資源

B) 進程式控制制是通過原語實現的

C) P、V操作是一種進程同步機制

D) 管道不是一種進程高級通信機制

(17) 引入多道程序設計技術的目的是

A）增強系統的用戶友好性

B）提高

系統實時性

C）充分利用處理器資源

D）擴充內存容量

(18) 在程序狀態字PSW中設置了一位，用於控制用戶程序不能執行特權指令，這一位是

A) 保護位

B) CPU狀態位

C) 屏蔽位

D) 條件位

(19) 下列關於文件系統當前目錄的描述中，哪個是不正確的？

A) 每個用戶可以有一個當前目錄

B) 引入當前目錄可以加快檢索速度

C) 查找文件時可以使用部分路徑名

D) 當前目錄不能隨意改變

(20) 下列關於緊湊技術的敘述中，哪個是不正確的？

A) 內存中任意一個程序都可以隨時移動

B) 移動可以集中分散的空閑區

C) 移動會增加處理器的開銷

D) 採用緊湊技術時應盡可能減少移動的信息量

(21) 引入虛擬存儲技術的關鍵前提是

A) 有大量容量的外存

B) 程序執行的局部性原理

C) 硬體提供地址轉換機制

D) 選擇一種合適的頁面調度演算法

(22) 文件系統的多級目錄結構是一種

A) 線性結構

B) 樹形結構

C) 散列結構

D) 雙鏈表結構

(23) 構成文件的基本單位是字元，這一類文件稱為

A) 流式文件
B) 記錄式文件

C) 順序文件

D) 索引文件

(24) 下列哪一種（些）磁碟調度演算法只考慮了公平性？

Ⅰ.先來先服務 Ⅱ.最短尋道時間優先 Ⅲ.掃描

A）Ⅰ

B）Ⅱ

C）Ⅰ和Ⅲ

D）全部

(25) 在資料庫技術中，反映現實世界中事物的存在方式或運動狀態的是

A) 信息

B) 數據

C) 消息

D)命令

(26) 信息的價值與信息的哪些性質密切相關？

Ⅰ.准確性 Ⅱ.及時性 Ⅲ.可靠性 Ⅳ.開放性 Ⅴ.完整性

A) Ⅰ、Ⅱ、Ⅲ和Ⅳ

B) Ⅱ、Ⅲ、Ⅳ和Ⅴ

C) Ⅰ、Ⅱ、Ⅲ和Ⅴ

D) Ⅰ、Ⅱ、Ⅳ和Ⅴ

(27) 在關系數據中，視圖（view）是三級模式結構中的

A) 內模式

B) 模式

C) 存儲模式

D) 外模式

(28) 在資料庫的三級模式結構中，內模式有

A）1個

B）2個

C）3個

D）任意多個

(29) 在關系資料庫系統中

，當關系的型改變時，用戶程序也可以不變。這是

A）數據的物理獨立性

B）數據的邏輯獨立性

C）數據的位置獨立性

D）數據的存儲獨立性

(30) 設關系R和S的元組個數分別為100和300，關系T是R與S的笛卡爾積，則T的元組個數是

A）400

B）10000

C）30000

D）90000

(31) 下面對於關系的敘述中，哪個是不正確的？

A) 關系中的每個屬性是不可分解的

B) 在關系中元組的順序是無關緊要的

C) 任意的一個二維表都是一個關系

D) 每一個關系只有一種記錄類型

(32) 設關系R與關系S具有相同的目（或稱度），且相對應的屬性的值取自同一個域，則R-（R-S）等於

A）R∪S

B）R∩S

C）R×S

D）R-S

(33) 在關系代數中，從兩個關系的笛卡爾積中，選取它們屬性間滿足一定條件的元組的操作，稱為

A）投影 �?_p> B）選擇

C）自然連接

D）θ連接

第（34）和（35）題的關系代數操作基本如下的關系R和S：

R S

A B C B E

a1 b1 5 b1 3

a1 b2 6 b2 7

a2 b3 8 b3 10

a2 b4 12 b4 2

b5 2

(34) 若關系R和S的關系代數的操作結果如下，這是執行了

A R.B C S.B

a1 b1 5 b2 7

a1 b1 5 b3 10

a1 b2 6 b2 7

a1 b2 6 b3 10

a2 b3 8 b3 10

A) R ?? S

B) R ?? S

C) R ?? S

D) R ?? SCE R.B=S.B

(35) 若關系R和S的關系代數操作的結果如下，這是執行了

A B C E

a1 b1 5 3

a1 b2 6 7

a2 b3 8 10

a2 b4 12 2

A) R ?? S

B) R ?? S

C) R ?? S

D) R ?? SCE R.B=S.B

(36) sql語言集數據查詢、數據操縱、數據定義和數據控制功能於一體，語句ALTER TABLE實現哪類功能？

A) 數據查詢

B) 數據操縱

C) 數據定義

D) 數據控制

>(37) 在關系資料庫系統中，為了簡化用戶的查詢操作，而又不增加數據的存儲空間，常用的方法是創建

A) 另一個表（table）

B) 游標（cursor）

C) 視圖（view）

D) 索引（index）

第(38)至（41）題基於"學生-選課-課程"資料庫中的三個關系：

S（S#，SNAME，SEX，AGE），

SC（S#，C#，GRADE），

C（C#，CNAME，TEACHER）

(38) 若要求查找選修"資料庫技術"這門課程的學生姓名和成績，將使用關系

A) S和SC

B) SC和C

C) S和C

D)S、SC和C

(39) 若要求查找姓名中第一個字為王的學生號和姓名。下面列出的SQL語句中，哪個（些）是正確的？

Ⅰ.SELECT S#，SNAME FROM S WHERESNAME=′王%′

Ⅱ.SELECT S#，SNAME FROM S WHERE SNAME LIKE′王%′

Ⅲ.SELECT S#，SNAME FROM S WHERESNAME LIKE′王_′

A) Ⅰ

B) Ⅱ

C) Ⅲ

D) 全部

(40) 為了提高查詢速度，對SC表（關系）創建唯一索引，應該創建在哪個（組）屬性上？

A）（S#，C#）

B）S#

C）C#

D）GRADE

(41) 為了考慮安全性，每個教師只能存取自己講授的課程的學生成績，為此DBA應創建

A）視圖(view)

B) 索引(index)

C) 游標(cursor)

D)表(table)

(42) 資料庫管理系統中的安全控制模塊屬於

A) 資料庫定義程序模塊

B) 資料庫操縱程序模塊

C) 資料庫運行管理程序模塊

D) 資料庫組織、存儲和管理程序模塊

(43) 下面所列的條目中

Ⅰ.語法檢查 Ⅱ.語義檢查 Ⅲ.用戶存取許可權檢查 Ⅳ.數據完整性檢查當用戶發出查詢資料庫數據的命令時，資料庫管理系統需要進行的檢查是

A）Ⅰ和Ⅱ

B）Ⅰ、Ⅱ和Ⅲ

C）Ⅱ和Ⅲ

D）全部

(44) 下述哪一種方法不屬於並行資料庫物理存儲中常用的關系劃分方法？

A) 輪轉法

B) 投影法

C) 散列分布

D) 范圍分布

(45) 下面的條目中，哪些是IBM數據倉庫三層結構中的組成部分？

Ⅰ.OLTP業務系統 Ⅱ.前台分析工具 Ⅲ.數據倉庫 Ⅳ.數據集市

A) Ⅰ、Ⅱ和Ⅲ

B) Ⅰ、Ⅱ和Ⅳ

=left>C) Ⅰ、Ⅲ和Ⅳ

D) Ⅱ、Ⅲ和Ⅳ

(46) "事務的所有操作在資料庫中要麼全部正確反映出來要麼全部不反映"，這是事務的哪一個特性？

A) 原子性

B) 一致性

C) 隔離性

D) 持久性

(47) 若事務T對數據R已經加了X鎖，則其他事務對數據R

A) 可以加S鎖不能加X鎖

瀀>�?_ B) 不能加S鎖可以加X鎖

C) 可以加S鎖也可以加X鎖

D) 不能加任何鎖

(48) 關於"死鎖"，下列說法中正確的是

A）死鎖是操作系統中的問題，資料庫系統中不存在

B）只有出現並發操作時，才有可能出現死鎖

C）在資料庫操作中防止死鎖的方法是禁止兩個用戶同時操作資料庫

D）當兩個用戶競爭相同的資源時不會發生死鎖

(49) 下述哪一個SQL語句用於實現數據存取的安全機制？

A) COMMIT

B) ROLLBACK

C) GRANT

D) CREATE TABLE

(50) 由於關系模式設計不當所引起的插入異常指的是

A) 兩個事務並發地對同一關系進行插入而造成資料庫不一致

B) 由於碼值的一部分為空而不能將有用的信息作為一個元組插入到關系中

C) 未經授權的用戶對關系進行了插入

D) 插入操作因為違反完整性約束條件而遭到拒絕

(51) 下面關於函數依賴的敘述中，不正確的是

A) 若X→Y，X→Z，則X→YZ

B) 若XY→Z，則X→Z, Y→Z

C) 若X→Y，WY→Z，則XW→Z

D) 若X→Y，則XZ→YZ

(52) 下面有關各種範式之間的包含關系的描述中，正確的是

A) BCNF?4NF?3NF?2NF?1NF

B) 4NF?BCNF?3NF?2NF?1NF

C) 1NF?2NF?3NF?4NF?BCNF

D) 1NF?2NF?3NF?BCNF?4NF

第（53）至（54）題基於以下的敘述：關系模式R（B，C，M，T，A，G），根據語義有如下函數依賴集：F={B→C，（M，T）→B，（M，C）→T，（M，A）→T，（A，B）→C}。

(53) 關系模式R的碼是

A) (M，T)

B) (M，C)

C) (M，A)

D) (A，B)

(54) R的規范化程度最高達到

A) 1NF

B) 2NF

C) 3NF

D) 4NF

(55) 下面有關模式分解的敘述中，不正確的是

A) 若一個模式分解保持函數依賴，則該分解一定具有無損連接性

B) 若要求分解保持函數依賴，那麼模式分解可以達到3NF，但不一定能達到BCNF

C) 若要求分解既具有無損連接性，又保持函數依賴，則模式分解可以達到3NF，但不一定能達到BCNF

D) 若要求分解具有無損連接性，那麼模式分解一定可以達到BCNF

(56) 下面有關E-R模型向關系模型轉換的敘述中，不正確的是

A) 一個實體類型轉換為一個關系模式

B) 一個1:1聯系可以轉換為一個獨立的關系模式，也可以與聯系的任意一端實體所對應的關系模式合並

C) 一個1:n聯系可以轉換為一個獨立的關系模式，也可以與聯系的任意一端實體所對應的關系模式合並

D) 一個m:n聯系轉換為一個關系模式

(57) 下面哪個工具不屬於資料庫應用開發的CASE工具？

A) Sybase公司的PowerDesinger

B) Uniface公司的Uniface

C) Oracle公司的Designer/2000

D)Rational公司的Rose

(58) 下列關於Delphi的敘述中，哪種是不正確的？

A) Delphi屬於第四代語言

B) Delphi基於面向對象編程方法，是一種可視化開發工具

C) Delphi提供了數據遷移工具（DataPump），可以實現數據從一個資料庫到另一個資料庫的遷移

D) Delphi可以方便地支持數據倉庫的創建

(59) 下列關於"分布式資料庫系統"的敘述中，正確的是

A) 分散在各節點的數據是不相關的

B) 用戶可以對遠程數據進行訪問，但必須指明數據的存儲節點

C) 每一個節點是一個獨立的資料庫系統，既能完成局部應用，也支持全局應用

D) 數據可以分散在不同節點的計算機上，但必須在同一台計算機上進行數據處理

(60) 下面有關對象-關系資料庫管理系統的敘述中，不正確的是

A) 數據類型不能嵌套

B) 可以創建新的數據類型

C) 繼承性只適用於組合類型，子類繼承超類的所有數據元素

D) 可以構造復雜對象的數據類型，集合是一種類型構造器

二、填空題(每空2分,共40分)

請將答案分別寫在答題卡中序號為【1】至【20】的橫線上,答在試卷上不得分。

(1) 高級程序設計語言編寫的程序不能在計算機瀀>�?_上直接執行，必須通過【1】翻譯成具體的機器語言後才能執行。

(2) 廣域網覆蓋的地理范圍從幾十公里到幾千公里，其通信子網一般採用【2】技術。

(3) 二叉樹是結點的有限集合，這個有限集合或者為【3】，或者由一個根結點及兩棵不相交的、分別稱作為根的左子樹和右子樹的二叉樹組成。

(4) m階B樹的根結點若不是葉結點，那麼它至多有m棵子樹，至少有【4】棵子樹。

(5) 對於關鍵碼序列18，30，35，10，46，38，5，40進行堆排序（假定堆的根結點為最小關鍵碼），在初始建堆過程中需進行的關鍵碼交換次數為【5】。

7) 在頁式存儲管理中，存放在高速緩沖存儲器中的部分頁表稱為【7】。

(8) 從資源分配的角度可將設備分為【8】、共享設備和虛設備。

(9) 數據管理技術的發展經歷了如下三個階段：人工管理階段、文件系統階段和【9】系統階段。

(10) 在關系模型中，若屬性A是關系R的主碼，則在R的任何元組中，屬性A的取值都不允許為空，這種約束稱為【10】規則。

(11) 用值域的概念來定義關系，關系是屬性值域笛卡爾積的一個【11】。

(12) 在SQL語言中，刪除表的定義以及表中的數據和此表上的索引，應該使用的語句是【12】。

(13) 資料庫管理系統管理並且控制【13】資源的使用。

(14) Oracle OLAP是Oracle資料庫系統的【14】解決方案。

(15) 事務故障恢復時要對事務的每一個操作執行逆操作，即將日誌記錄中" 【15】"寫入資料庫中。

(16) 多個事務在某個調度下的執行是正確的，是能保證資料庫一致性的，當且僅當該調度是【16】。

(17) 當將局部E-R圖集成為全局E-R圖時，如果同一對象在一個局部E-R圖中作為實體，而在另一個局部E-R圖中作為屬性，這種現象稱為【17】沖突。

(18) 假設在關系模式R（U）中，X、Y、Z都是U的子集，且Z= U-X-Y。若X→→Y，而，則稱X→→Y為【18】。

(19) 在數據挖掘方法中，將數據集分割為若干有意義的簇的過程稱為【19】分析，它是一種無制導的學習方法。

(20) 數據倉庫中存放的數據是為了適應數據的【20】處理要求而集成起來的。

『叄』一個典型的大數據解決方案,包含哪些組件

首先，一個典型的大數據解決方案，也就是大數據系統平台的構建，涉及到多個層次，數據採集和傳輸、數據存儲、數據計算、資源管理、任務調度等，每個流程階段當中，都有多個組件可選擇，關鍵是要能夠滿足實際的需求。
簡單舉例說明一下典型的一些組件：
文件存儲：Hadoop HDFS
離線計算：Hadoop MapRece、Spark
流式、實時計算：Storm、Spark Streaming
K-V、NOSQL資料庫：HBase、Redis、MongoDB
資源管理：YARN、Mesos
日誌收集：Flume、Scribe、Logstash、Kibana
消息系統：Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢分析：Hive、Impala、Presto、Phoenix、SparkSQL、Flink、Kylin、Druid
分布式協調服務：Zookeeper
集群管理與監控：Ambari、Ganglia、Nagios、Cloudera Manager
數據挖掘、機器學習：Mahout、Spark MLLib
數據同步：Sqoop
任務調度：Oozie

『肆』你所知道的用於流式數據分析的軟體有哪些

Spark Streaming，Storm，Flink

『伍』大數據時代:移動數據能為我們帶來什麼

大數據時代:移動數據能為我們帶來什麼

如果我告訴你，你可以做到從海量數據來源（包括各種各樣的移動設備）中把數據提取到一個系統，然後只用少量的程序行數描述所需的信息就可以讓結果輕松呈現，還可以做到實時處理這些數據，並且保持系統同時運行，你相信嗎？

不用懷疑，你可以做到。

這首先要歸功於信息爆炸時代移動數據的飛速發展。移動應用不停地產生大量信息，比如用戶行為的信息（包括對話開始、事件發生、事務處理等），然後設備生成數據（崩潰數據、應用日誌、位置數據、網路日誌等）。這些數據的意義在於它們給大數據提供了源源不斷的信息源去識別和分析手機用戶一天的所見所聞。

不得不說，移動大數據時代是應運而生。而為了收集智能手機的數據，就不得不面臨數據收集、分析和運行的挑戰。毫無疑問，能夠利用移動數據的企業和移動設備開發者在市場競爭中更有競爭力和業務優勢。因為他們可以在一開始就准確地識別出影響用戶行為的因素，有效地將客戶需求分級，從而能夠既有創造力又有效率地實現客戶需求。

而在大數據實時分析的競爭中能否決勝的關鍵是內存資料庫。內存資料庫保證了大數據的動態分析——用指數級的速度處理以噴發狀態產生的大量數據，然後及時產生結果。內存資料庫能為以不同速度為移動設備進行實時和動態的內存數據處理，還可以導入其他數據來源例如汽車和家庭系統的數據。

大數據的分布式處理能夠在計算機上實現跨集群操作，擴展到成千上萬種設備上，比如Hadoop就用分布式處理方式完成了多項任務。然而對於這個高速運轉、信息不停噴發的移動時代來說，分散處理並不是最有效最經濟的方式。內存資料庫的產生無疑給企業提供了利用實時數據的新工具：盡可能快地在數據產生之初就進行分析，發現其趨勢並更快地做出反應，實現降低服務成本和提高收益的目標。那些企業級的流式資料庫，比如StreamBase和KDB，包括CEPs和混合式，內存資料庫開始利用新的演算法和可視化技術來填充實時處理技術的缺口。移動大數據的提供者正在試圖將內存資料庫、動態處理技術、演算法與可視化技術融為一體，讓企業能夠運用移動大數據，讓它成為一種業務驅動力。

移動應用團隊更能理解同步分析數據的重要性。為了留住用戶，開發者要能夠預見誤差，了解誤差對用戶行為的影響，衡量新產品的效益，識別用戶的參與趨勢，檢測客戶端，這樣才能趕在問題暴露在消極用戶面前之前消滅它。

下面是我們觀察到的移動大數據的四個發展趨勢:

1. 事務處理最重要

「移動」最關鍵的就是交互活動和對其的監控。用戶選擇應用是出於不同的目的：娛樂、購物、學習、分享等；而一旦有任何因素干擾或者減慢他們實現目的的體驗過程，用戶很容易就會產生消極情緒。利用應用軟體監控事務處理，讓企業能對用戶體驗進行評估和回應，盡量避免用戶卸載軟體或者給出差評。如今對事務性數據和功能性數據的監控都很重要，也不能沒有一個適應移動發展時代的戰略了。

2. 三駕馬車，三個「V」

Business Insider的最新報道指出，大數據有三個特點：大量（volume）、多樣（variety）、高速（velocity），我們把它們概括成三個「V」。數據本身的產生非常快，而且形式多樣，大小不一，數量還很大。更別提移動數據了，數量都是成倍地增長。而Cisco最近的報告表明，有數以百萬計的人只通過移動設備連接互聯網，很明顯，這些設備產生了大量的數據。Kash Rangan說，有很多互動被忽略了沒有得到分析，而這些就是被忽視的機會。更有趣的是，數據的多樣性恰恰是由移動設備造成的。從用戶跟蹤到崩潰報告，有各種各樣五花八門詳細的應用數據，包括商業貿易、情感反應、心跳測量、住宿記錄，甚至包括風象報告。移動應用越來越多地影響了人們的生活方式，結果是數據增長的速度也在不斷上升。只要想想一個手機用戶比如你我每天都被手機牢牢套住的情況就可以理解了。

3. 測度是關鍵

面對大數據用戶的一個挑戰是考慮經營的影響因素。如果定位不好、收益不好，大數據可能反而會成為一種牽絆。如何鑒別哪種信息能夠幫助更好地進行經營決策，而哪種信息卻毫無用處呢？在企業投身移動數據的熱潮之前，必須要弄清楚他們的關鍵度量指標是什麼，不然就會被困在一堆派不上用場的數據里，進退兩難。

4. 先監控，再提問

這聽來好像跟我們的直覺不一樣，但實際上企業都應該採用這種策略，先對應用進行監控並收集數據，然後回答關鍵的業務問題，再去探索從數據里發現的新的發展機會。去了解應用發展的情況是能否駕馭大數據的決定性的一步。在基本了解以後，企業和開發者們就可以深入研究關鍵性因素了。移動大數據提供者也讓各種規模的公司有了讓移動數據為他們所用的能力，無論是獨立經營者還是大企業都是一樣。現在，內存資料庫已經有了，移動大數據提供者們又開始為下一個目標努力：通過最大化地提升數據的收集和傳輸效率來優化移動方面的東西，同時關注新的挑戰，例如電池消耗、3G數據使用、連接速度慢、隱私問題和局部存儲器的問題，還要擴展通信量並控制可預見的通信量激增。這場競賽的關鍵已經不再是誰的移動設備革新速度快，而是誰對移動設備所產生數據的反應速度更快。

以上是小編為大家分享的關於大數據時代:移動數據能為我們帶來什麼的相關內容，更多信息可以關注環球青藤分享更多干貨

『陸』這次被美國「科技霸凌」的中國資料庫《SQL9075 2018 流資料庫》國際技術標准究竟強在哪裡

長期以來，中國一直被三大「卡脖子」技術束縛——「晶元、操作系統、資料庫」。
晶元，自不用說，華為的苦我們都懂的；操作系統，我們剛剛實現了從0到1的過程，路漫漫其修遠；而資料庫作大眾看不見摸不到的技術支撐，很多人不太理解其重要性。在這里，簡單科普一下：資料庫是上述三大核心技術的核心基礎中台、基礎核心軟體，被稱為軟體的靈魂、是關鍵技術皇冠上的明珠，但中國恰恰在該領域的對外技術依賴性最高，這對於大國崛起就很尷尬了，相當於，打開緊箍咒的經我們不會念…
因此，中國在資料庫技術領域已經蓄力已久，五年前我們開始了國際標準的研發工作，經過中國專家組五年來的潛心精研、砥礪攻堅，終於在2019年基本明確了在資料庫技術標准上已取得突破性進展：由中國主導形成標準的《SQL9075 2018 流數據》在2020年只要順利通過審議，便可在全球發布、推廣及適用。同時，《AI-in-Database 庫內人工智慧》提案確認由中國主導形成國際標准，正式進入國際標準的撰寫及確定階段。

『柒』資料庫是記錄式文件,還是流式文件

對，是記錄式的

『捌』流式計算與批量計算有什麼區別

大數據的計算模式主要分為批量計算(batch computing)、流式計算(stream computing)、交互計算(interactive computing)、圖計算(graph computing)等。其中，流式計算和批量計算是兩種主要的大數據計算模式，分別適用於不同的大數據應用場景。

流數據（或數據流）是指在時間分布和數量上無限的一系列動態數據集合體，數據的價值隨著時間的流逝而降低，因此必須實時計算給出秒級響應。流式計算，顧名思義，就是對數據流進行處理，是實時計算。

批量計算則統一收集數據，存儲到資料庫中，然後對數據進行批量處理的數據計算方式。主要體現在以下幾個方面：

1、數據時效性不同：流式計算實時、低延遲，批量計算非實時、高延遲。

2、數據特徵不同：流式計算的數據一般是動態的、沒有邊界的，而批處理的數據一般則是靜態數據。

3、應用場景不同：流式計算應用在實時場景，時效性要求比較高的場景，如實時推薦、業務監控...批量計算一般說批處理，應用在實時性要求不高、離線計算的場景下，數據分析、離線報表等。

4、運行方式不同，流式計算的任務持續進行的，批量計算的任務則一次性完成。

『玖』 10億級流數據交互查詢，為什麼拋棄mysql選擇voltdb

10億級流數據交互查詢，為什麼拋棄mysql選擇voltdb
作者譚正海、武毅發布於 2016年8月18日 | 被首富的「一個億」刷屏？不如定個小目標，先把握住QCon上海的優惠吧！討論
分享到：微博微信FacebookTwitter有道雲筆記郵件分享
稍後閱讀
我的閱讀清單
大數據時代，隨著數據量的爆炸式增長，對於數據的處理速度要求也越來越高，以往基於MySQL的數據處理方案已無法滿足大吞吐、低延遲的寫入和高速查詢的場景；百分點總結出了一套完整的解決方案，本文就帶你一同了解VoltDB在流數據交互查詢的應用實踐。
流式數據交互查詢場景
在百分點，每天有10億條記錄產生，針對這些大量實時產生的數據，不僅要做到實時寫入，類似推薦調優、數據驗證等查詢要在秒級響應。有簡單的單條驗證，也有幾個小時或一天的聚合計算，也有基於幾千萬/幾億數據表間的聯合聚合查詢。例如如下SQL查詢：

對於前期的MySQL方案，雖然已經根據一定規則做了人工的分庫，但是對於上面SQL中的表Event落在單機上的數據量達到幾千萬，Result表也近千萬，在這樣的大表之間進行復雜的聯合聚合查詢，MySQL查下來要花費30分鍾左右，甚至更長，或是沒響應了。
因此在針對同時要求大吞吐、低延遲的寫入和高速查詢的場景下，基於MySQL的現存方案完全無法實現。在不放棄SQL語句的便利基礎上，經歷過多種選型和方案調研，最終選擇了VoltDB來解決此類問題。

相關廠商內容
攜程的推薦及智能化演算法及架構體系實踐
Autodesk基於Spark自建大數據平台的實踐經驗
大數據與電商四大核心要素
阿里巴巴數據研發體系的建立和管理之道
蘇寧雲商數據平台實時化實踐
相關贊助商

QCon上海2016，10月20~22日，上海·寶華萬豪酒店，精彩內容搶先看！！
如上圖，線上的全量流量，通過Streaming匯流排同時到達VoltDB和離線Hive表。不同的是，數據寫入VoltDB使用實時方式，寫入Hive使用批量方式。新的數據要求在極短的延遲內馬上寫入VoltDB待查詢；批量寫入Hive的數據也可以做到小時級以內刷寫到對應分區。
VoltDB簡介
VoltDB是一種開源的極速的內存關系型資料庫，由Ingres和Postgres聯合創始人Mike Stonebraker帶領開發的NewSQL，提供社區版本和商業版本。VoltDB採用shard-nothing架構，既獲得了NoSQL的良好可擴展性以及高吞吐量數據處理，又沒有放棄傳統關系型資料庫的事務支持---ACID。
一般VoltDB資料庫集群由大量的站點(分區)組成，分散在多台機器上，數據的存儲與處理都是分布在各個站點的，架構圖如下所示：

如上圖，集群有3個節點、每個節點1個站點構成。因此圖中的表都只分成3個區，當然也可以分成更多的區，那麼一張表在單個節點上則存在多個分區。
具體在使用上涉及以下幾個概念：
客戶端可以連接集群中任意一個節點，集群中所有節點是對等的，採用的也是水平分區的方式；
每張表指定一個欄位作為分區鍵，VoltDB使用該鍵採用哈希演算法方式分布表數據到各個分區。事實上VoltDB中存在兩種類型的表，一種是分區表，還有一種叫做」Replicated table」。」Replicated表」在每個節點存儲的不是某張表的部分數據，而是全部數據，適用於小數據量的表。
這里我們主要看重分區表，分區表的分區欄位的選擇很重要，應該盡量選擇使數據分散均勻的欄位。
VoltDB支持的客戶端語言或介面：
C++
C#
Erlang
Go
Java
Python
Node.js
JDBC 驅動介面
HTTPJSON 介面 (這意味著所有能實現http請求語言，都能編寫VoltDB的客戶端程序，且非常直觀)

閱讀全文

熱點內容

db2新建資料庫發布：2024-09-08 08:10:19 瀏覽：171

頻率計源碼發布：2024-09-08 07:40:26 瀏覽：778

奧迪a6哪個配置帶後排加熱發布：2024-09-08 07:06:32 瀏覽：100

linux修改apache埠發布：2024-09-08 07:05:49 瀏覽：208

有多少個不同的密碼子發布：2024-09-08 07:00:46 瀏覽：566

linux搭建mysql伺服器配置發布：2024-09-08 06:50:02 瀏覽：995

加上www不能訪問發布：2024-09-08 06:39:52 瀏覽：811

銀行支付密碼器怎麼用發布：2024-09-08 06:39:52 瀏覽：513

蘋果手機清理瀏覽器緩存怎麼清理緩存發布：2024-09-08 06:31:32 瀏覽：554

雲伺服器的優點與缺點發布：2024-09-08 06:30:34 瀏覽：735

流式資料庫

與流式資料庫相關的資訊