當前位置:首頁 » 操作系統 » 資料庫常見的面試題

資料庫常見的面試題

發布時間: 2023-10-21 07:28:06

❶ Oracle資料庫的面試題目及答案

Oracle資料庫的面試題目及答案

基礎題目:

1. 比較truncate和 命令

解答:兩者都可以用來刪除表中所有的記錄。區別在於:truncate是DDL操作,它移動HWK,不需要 rollback segment .

而Delete是DML操作, 需要rollback segment 且花費較長時間.

【相同點

truncate和不帶where子句的, 以及drop都會刪除表內的數據

不同點:

1. truncate和 只姿轎刪除數據不刪除表的結構(定跡談肆義)

drop語句將刪除表的結構被依賴的約束(constrain),觸發器(trigger),索引(index); 依賴於該表的.存儲過程/函數將保留,

但是變為invalid狀態.

2.語句是dml,這個操作會放到rollback segement中,事務提交之後才生效;如果有相應的trigger,執行的時候將被觸發.

truncate,drop是ddl, 操作立即生效,原數據不放到rollback segment中,不能回滾. 操作不觸發trigger.

3.語句不影響表所佔用的extent, 高水線(high watermark)保持原位置不動

顯然drop語句將表所佔用的空間全部釋放

truncate 語句預設情況下見空間釋放到 minextents個 extent,除非使侍渣用reuse storage; truncate會將高水線復位(回到最開始).

4.速度,一般來說: drop>; truncate >;

5.安全性:小心使用drop 和truncate,尤其沒有備份的時候.否則哭都來不及

使用上,想刪除部分數據行用,注意帶上where子句. 回滾段要足夠大.

想刪除表,當然用drop

想保留表而將所有數據刪除. 如果和事務無關,用truncate即可. 如果和事務有關,或者想觸發trigger,還是用.

如果是整理表內部的碎片,可以用truncate跟上reuse stroage,再重新導入/插入數據

2.Oracle中,需要在查詢語句中把空值(NULL)輸出為0,如何處理?

答案:nvl(欄位,0).

nvl( ) 函數

從兩個表達式返回一個非 null 值。

語法

NVL(eExpression1, eExpression2)

參數

eExpression1, eExpression2

如果 eExpression1 的計算結果為 null 值,則 NVL( ) 返回 eExpression2。如果 eExpression1 的計算結果不是 null 值,

則返回 eExpression1。eExpression1 和 eExpression2 可以是任意一種數據類型。如果 eExpression1 與 eExpression2

的結果皆為 null 值,則 NVL( ) 返回 .NULL.。

返回值類型

字元型、日期型、日期時間型、數值型、貨幣型、邏輯型或 null 值

說明

在不支持 null 值或 null 值無關緊要的情況下,可以使用 NVL( ) 來移去計算或操作中的 null 值。

select nvl(a.name,空得) as name from student a join school b on a.ID=b.ID

注意:兩個參數得類型要匹配

3.Oracle中char和varchar2數據類型有什麼區別?有數據」test」分別存放到10)和varchar2(10)類型的欄位中,

其存儲長度及類型有何區別?

答案:

區別: 1).CHAR的長度是固定的,而VARCHAR2的長度是可以變化的, 比如,存儲字元串「test",對於CHAR (10),


;

❷ 「春招系列」Mysql面試核心25問(附答案)

篇幅所限本文只寫了MySQL25題,像其他的Redis,SSM框架,演算法,計網等技術棧的面試題後面會持續更新,個人櫻褲整理的1000餘道面試八股文會放在文末給大家白嫖,最近有面試需要刷題的同學可以直接翻到文末領取。

如果表使用自增主鍵,那麼每次插入新的記錄,記錄就會順序添加到當前索引節點的後續位置,當一頁寫滿,就會自動開辟一個新的頁。如果使用非自增主鍵(如果身份證號或學號等),由於每次插入主鍵的值近似於隨機,因此每次新紀錄都要被插到現有索引頁得中間某個位置, 頻繁的移動、分頁操作造成了大量的碎片,得到了不夠緊湊的索引結構,後續不得不通過OPTIMIZE TABLE(optimize table)來重建表並優化填充頁面。

Server層按順序執行sql的步驟為:

簡單概括:

可以分為服務層和存儲引擎層兩部分,其中:

服務層包括連接器、查詢緩存、分析器、優化器、執行器等 ,涵蓋MySQL的大多數核心服務功能,以及所有的內置函數(如日期、時間、數學和加密函數等),所有跨存儲引擎的功能都在這一層實現,比如存儲過程、觸發器、視圖等。

存儲引擎層負責數據的存儲和提取 。其架構模式是插件式的,支持InnoDB、MyISAM、Memory等多個存儲引擎。現在最常用的存儲引擎是InnoDB,它從MySQL 5.5.5版本開始成為了默認的存儲引擎。

Drop、Delete、Truncate都表示刪除,但是三者有一些差別:

Delete 用來刪除表的全部或者一部分數據行,執行Delete之後,用戶需要提交(commmit)或者回滾(rollback)來執行刪除或者撤銷刪除,會觸發這個表上所有的delete觸發器。

Truncate 刪除表中的所有數據,這個操作不能回滾,也不會觸發這個表上的觸發器,TRUNCATE比Delete更快,佔用的空間更小。

Drop 命令從資料庫中刪除表,所有的數據行,索引和許可權也會被刪除,所有的DML觸發器也不會被觸發,這個命令也不能回滾。

因此,在不再需要一張表的時候,用Drop;在想刪除部分數據行時候,用Delete;在保留表而刪除所有數據的時候用Truncate。

隔離級別臟讀不可重復讀幻影讀 READ-UNCOMMITTED 未提交讀 READ-COMMITTED 提交讀 REPEATABLE-READ 重復讀 SERIALIZABLE 可串列化讀

MySQL InnoDB 存儲引擎的默認支持的隔離級別是 REPEATABLE-READ (可重讀)

這里需要注意的是 :與 SQL 標准不同的地方在於InnoDB 存儲引擎在 REPEATABLE-READ(可重讀)事務隔離級別 下使用的是 Next-Key Lock 鎖 演算法,因此可以避免幻讀的產生,這與其他資料庫系統(如 SQL Server)是不同的。所以 說InnoDB 存儲引擎的默認支持的隔離級別是 REPEATABLE-READ(可重讀) 已經可以完全保證事務的隔離性要 求,即達到了 SQL標準的SERIALIZABLE(可串列化)隔離級別。

因為隔離級別越低,事務請求的鎖越少,所以大部分資料庫系統的隔離級別都是READ-COMMITTED(讀取提交內 容):,但是你要知道的是InnoDB 存儲引擎默認使用 REPEATABLE-READ(可重讀)並不會有任何性能損失

InnoDB 存儲引擎在分布式事務 的情況下一般會用到SERIALIZABLE(可串列化)隔離級別。

主要原因:B+樹只要遍歷葉子節點就可以實現整棵樹的遍歷,而且在資料庫中基於范圍的查詢是非常頻繁的,而B樹只能中序遍歷脊空簡所有節點,效率太低。

文件與資料庫都是需要較大的存儲,也就是說,它們都不可能全部存儲在內存中,故需要存儲到磁碟上。而所謂索引,則為了數據的快速定位與查找,那麼索引的結構組織要盡虧帆量減少查找過程中磁碟I/O的存取次數,因此B+樹相比B樹更為合適。資料庫系統巧妙利用了局部性原理與磁碟預讀原理,將一個節點的大小設為等於一個頁,這樣每個節點只需要一次I/O就可以完全載入,而紅黑樹這種結構,高度明顯要深的多,並且由於邏輯上很近的節點(父子)物理上可能很遠,無法利用局部性。

最重要的是,B+樹還有一個最大的好處:方便掃庫。

B樹必須用中序遍歷的方法按序掃庫,而B+樹直接從葉子結點挨個掃一遍就完了,B+樹支持range-query非常方便,而B樹不支持,這是資料庫選用B+樹的最主要原因。

B+樹查找效率更加穩定,B樹有可能在中間節點找到數據,穩定性不夠。

B+tree的磁碟讀寫代價更低:B+tree的內部結點並沒有指向關鍵字具體信息的指針(紅色部分),因此其內部結點相對B 樹更小。如果把所有同一內部結點的關鍵字存放在同一塊盤中,那麼盤塊所能容納的關鍵字數量也越多。一次性讀入內存中的需要查找的關鍵字也就越多,相對來說IO讀寫次數也就降低了;

B+tree的查詢效率更加穩定:由於內部結點並不是最終指向文件內容的結點,而只是葉子結點中關鍵字的索引,所以,任何關鍵字的查找必須走一條從根結點到葉子結點的路。所有關鍵字查詢的路徑長度相同,導致每一個數據的查詢效率相當;

視圖是一種虛擬的表,通常是有一個表或者多個表的行或列的子集,具有和物理表相同的功能 游標是對查詢出來的結果集作為一個單元來有效的處理。一般不使用游標,但是需要逐條處理數據的時候,游標顯得十分重要。

而在 MySQL 中,恢復機制是通過回滾日誌(undo log)實現的,所有事務進行的修改都會先記錄到這個回滾日誌中,然後在對資料庫中的對應行進行寫入。當事務已經被提交之後,就無法再次回滾了。

回滾日誌作用:1)能夠在發生錯誤或者用戶執行 ROLLBACK 時提供回滾相關的信息 2) 在整個系統發生崩潰、資料庫進程直接被殺死後,當用戶再次啟動資料庫進程時,還能夠立刻通過查詢回滾日誌將之前未完成的事務進行回滾,這也就需要回滾日誌必須先於數據持久化到磁碟上,是我們需要先寫日誌後寫資料庫的主要原因。

InnoDB

MyISAM

總結

資料庫並發會帶來臟讀、幻讀、丟棄更改、不可重復讀這四個常見問題,其中:

臟讀 :在第一個修改事務和讀取事務進行的時候,讀取事務讀到的數據為100,這是修改之後的數據,但是之後該事務滿足一致性等特性而做了回滾操作,那麼讀取事務得到的結果就是臟數據了。

幻讀 :一般是T1在某個范圍內進行修改操作(增加或者刪除),而T2讀取該范圍導致讀到的數據是修改之間的了,強調范圍。

丟棄修改 :兩個寫事務T1 T2同時對A=0進行遞增操作,結果T2覆蓋T1,導致最終結果是1 而不是2,事務被覆蓋

不可重復讀 :T2 讀取一個數據,然後T1 對該數據做了修改。如果 T2 再次讀取這個數據,此時讀取的結果和第一次讀取的結果不同。

第一個事務首先讀取var變數為50,接著准備更新為100的時,並未提交,第二個事務已經讀取var為100,此時第一個事務做了回滾。最終第二個事務讀取的var和資料庫的var不一樣。

T1 讀取某個范圍的數據,T2 在這個范圍內插入新的數據,T1 再次讀取這個范圍的數據,此時讀取的結果和和第一次讀取的結果不同。

T1 和 T2 兩個事務都對一個數據進行修改,T1 先修改,T2 隨後修改,T2 的修改覆蓋了 T1 的修改。例如:事務1讀取某表中的數據A=50,事務2也讀取A=50,事務1修改A=A+50,事務2也修改A=A+50,最終結果A=100,事務1的修改被丟失。

T2 讀取一個數據,T1 對該數據做了修改。如果 T2 再次讀取這個數據,此時讀取的結果和第一次讀取的結果不同。

悲觀鎖,先獲取鎖,再進行業務操作,一般就是利用類似 SELECT … FOR UPDATE 這樣的語句,對數據加鎖,避免其他事務意外修改數據。當資料庫執行SELECT … FOR UPDATE時會獲取被select中的數據行的行鎖,select for update獲取的行鎖會在當前事務結束時自動釋放,因此必須在事務中使用。

樂觀鎖,先進行業務操作,只在最後實際更新數據時進行檢查數據是否被更新過。Java 並發包中的 AtomicFieldUpdater 類似,也是利用 CAS 機制,並不會對數據加鎖,而是通過對比數據的時間戳或者版本號,來實現樂觀鎖需要的版本判斷。

分庫與分表的目的在於,減小資料庫的單庫單表負擔,提高查詢性能,縮短查詢時間。

通過分表 ,可以減少資料庫的單表負擔,將壓力分散到不同的表上,同時因為不同的表上的數據量少了,起到提高查詢性能,縮短查詢時間的作用,此外,可以很大的緩解表鎖的問題。分表策略可以歸納為垂直拆分和水平拆分:

水平分表 :取模分表就屬於隨機分表,而時間維度分表則屬於連續分表。如何設計好垂直拆分,我的建議:將不常用的欄位單獨拆分到另外一張擴展表. 將大文本的欄位單獨拆分到另外一張擴展表, 將不經常修改的欄位放在同一張表中,將經常改變的欄位放在另一張表中。對於海量用戶場景,可以考慮取模分表,數據相對比較均勻,不容易出現熱點和並發訪問的瓶頸。

庫內分表 ,僅僅是解決了單表數據過大的問題,但並沒有把單表的數據分散到不同的物理機上,因此並不能減輕 MySQL 伺服器的壓力,仍然存在同一個物理機上的資源競爭和瓶頸,包括 CPU、內存、磁碟 IO、網路帶寬等。

分庫與分表帶來的分布式困境與應對之策 數據遷移與擴容問題----一般做法是通過程序先讀出數據,然後按照指定的分表策略再將數據寫入到各個分表中。分頁與排序問題----需要在不同的分表中將數據進行排序並返回,並將不同分表返回的結果集進行匯總和再次排序,最後再返回給用戶。

不可重復讀的重點是修改,幻讀的重點在於新增或者刪除。

視圖是虛擬的表,與包含數據的表不一樣,視圖只包含使用時動態檢索數據的查詢;不包含任何列或數據。使用視圖可以簡化復雜的 sql 操作,隱藏具體的細節,保護數據;視圖創建後,可以使用與表相同的方式利用它們。

視圖不能被索引,也不能有關聯的觸發器或默認值,如果視圖本身內有order by 則對視圖再次order by將被覆蓋。

創建視圖:create view xxx as xxxx

對於某些視圖比如未使用聯結子查詢分組聚集函數Distinct Union等,是可以對其更新的,對視圖的更新將對基表進行更新;但是視圖主要用於簡化檢索,保護數據,並不用於更新,而且大部分視圖都不可以更新。

B+tree的磁碟讀寫代價更低,B+tree的查詢效率更加穩定 資料庫索引採用B+樹而不是B樹的主要原因:B+樹只要遍歷葉子節點就可以實現整棵樹的遍歷,而且在資料庫中基於范圍的查詢是非常頻繁的,而B樹只能中序遍歷所有節點,效率太低。

B+樹的特點

在最頻繁使用的、用以縮小查詢范圍的欄位,需要排序的欄位上建立索引。不宜:1)對於查詢中很少涉及的列或者重復值比較多的列 2)對於一些特殊的數據類型,不宜建立索引,比如文本欄位(text)等。

如果一個索引包含(或者說覆蓋)所有需要查詢的欄位的值,我們就稱 之為「覆蓋索引」。

我們知道在InnoDB存儲引 擎中,如果不是主鍵索引,葉子節點存儲的是主鍵+列值。最終還是要「回表」,也就是要通過主鍵再查找一次,這樣就 會比較慢。覆蓋索引就是把要查詢出的列和索引是對應的,不做回表操作!

舉例

學號姓名性別年齡系別專業 20020612李輝男20計算機軟體開發 20060613張明男18計算機軟體開發 20060614王小玉女19物理力學 20060615李淑華女17生物動物學 20060616趙靜男21化學食品化學 20060617趙靜女20生物植物學

主鍵為候選鍵的子集,候選鍵為超鍵的子集,而外鍵的確定是相對於主鍵的。

❸ 面試常問的資料庫問題及答案

目前在職場中很難找到非常合格的資料庫開發人員。有人說:「SQL開發是一門語言,它很容易學,但是很難掌握。」
在面試應聘的SQL Server資料庫開發人員時,我運用了一套標準的基準技術問題。下面這些問題是我覺得能夠真正有助於淘汰不合格應聘者的問題。它們按照從易到難的順序排列。當你問到關於主鍵和外鍵的問題時,後面的問題都十分有難度,因為答案可能會更難解釋和說明,尤其是在面試的情形下。
你能向我簡要敘述一下SQL Server 2000中使用的一些資料庫對象嗎?
你希望聽到的答案包括這樣一些對象:表格、視圖、用戶定義的函數,以及存儲過程;如果他們還能夠提到像觸發器這樣的對象就更好了。如果應聘者不能回答這個基本的問題,那麼這不是一個好兆頭。
NULL是什麼意思?
NULL(空)這個值是資料庫世界裡一個非常難纏的東西,所以有不少應聘者會在這個問題上跌跟頭您也不要覺得意外。
NULL這個值表示UNKNOWN(未知):它不表示「」(空字元串)。假設您的SQL Server資料庫里有ANSI_NULLS,當然在默認情況下會有,對NULL這個值的任何比較都會生產一個NULL值。您不能把任何值與一個 UNKNOWN值進行比較,並在邏輯上希望獲得一個答案。您必須使用IS NULL操作符。

什麼是索引?SQL Server 2000里有什麼類型的索引?
任何有經驗的資料庫開發人員都應該能夠很輕易地回答這個問題。一些經驗不太多的開發人員能夠回答這個問題,但是有些地方會說不清楚。
簡單地說,索引是一個數據結構,用來快速訪問資料庫表格或者視圖里的數據。在SQL Server里,它們有兩種形式:聚集索引和非聚集索引。聚集索引在索引的葉級保存數據。這意味著不論聚集索引里有表格的哪個(或哪些)欄位,這些欄位都會按順序被保存在表格。由於存在這種排序,所以每個表格只會有一個聚集索引。非聚集索引在索引的葉級有一個行標識符。這個行標識符是一個指向磁碟上數據的指針。它允許每個表格有多個非聚集索引。
什麼是主鍵?什麼是外鍵?
主鍵是表格里的(一個或多個)欄位,只用來定義表格里的行;主鍵里的值總是唯一的。外鍵是一個用來建立兩個表格之間關系的約束。這種關系一般都涉及一個表格里的主鍵欄位與另外一個表格(盡管可能是同一個表格)里的一系列相連的欄位。那麼這些相連的欄位就是外鍵。
什麼是觸發器?SQL Server 2000有什麼不同類型的觸發器?
讓未來的資料庫開發人員知道可用的觸發器類型以及如何實現它們是非常有益的

觸發器是一種專用類型的存儲過程,它被捆綁到SQL Server 2000的表格或者視圖上。在SQL Server 2000里,有INSTEAD-OF和AFTER兩種觸發器。INSTEAD-OF觸發器是替代數據操控語言(Data Manipulation Language,DML)語句對表格執行語句的存儲過程。例如,如果我有一個用於TableA的INSTEAD-OF-UPDATE觸發器,同時對這個表格執行一個更新語句,那麼INSTEAD-OF-UPDATE觸發器里的代碼會執行,而不是我執行的更新語句則不會執行操作。
AFTER觸發器要在DML語句在資料庫里使用之後才執行。這些類型的觸發器對於監視發生在資料庫表格里的數據變化十分好用。
您如何確一個帶有名為Fld1欄位的TableB表格里只具有Fld1欄位里的那些值,而這些值同時在名為TableA的表格的Fld1欄位里?
這個與關系相關的問題有兩個可能的答案。第一個答案(而且是您希望聽到的答案)是使用外鍵限制。外鍵限制用來維護引用的完整性。它被用來確保表格里的欄位只保存有已經在不同的(或者相同的)表格里的另一個欄位里定義了的值。這個欄位就是候選鍵(通常是另外一個表格的主鍵)。
另外一種答案是觸發器。觸發器可以被用來保證以另外一種方式實現與限制相同的作用,但是它非常難設置與維護,而且性能一般都很糟糕。由於這個原因,微軟建議開發人員使用外鍵限制而不是觸發器來維護引用的完整性。
對一個投入使用的在線事務處理表格有過多索引需要有什麼樣的性能考慮?
你正在尋找進行與數據操控有關的應聘人員。對一個表格的索引越多,資料庫引擎用來更新、插入或者刪除數據所需要的時間就越多,因為在數據操控發生的時候索引也必須要維護。
你可以用什麼來確保表格里的欄位只接受特定范圍里的值?
這個問題可以用多種方式來回答,但是只有一個答案是「好」答案。您希望聽到的回答是Check限制,它在資料庫表格里被定義,用來限制輸入該列的值。
觸發器也可以被用來限制資料庫表格里的欄位能夠接受的值,但是這種辦法要求觸發器在表格里被定義,這可能會在某些情況下影響到性能。因此,微軟建議使用Check限制而不是其他的方式來限制域的完整性。
<b?返回參數和output參數之間的區別是什麼?>如果應聘者能夠正確地回答這個問題,那麼他的機會就非常大了,因為這表明他們具有使用存儲過程的經驗。
返回參數總是由存儲過程返回,它用來表示存儲過程是成功還是失敗。返回參數總是INT數據類型。
OUTPUT參數明確要求由開發人員來指定,它可以返回其他類型的數據,例如字元型和數值型的值。(可以用作輸出參數的數據類型是有一些限制的。)您可以在一個存儲過程里使用多個OUTPUT參數,而您只能夠使用一個返回參數。
什麼是相關子查詢?如何使用這些查詢?
經驗更加豐富的開發人員將能夠准確地描述這種類型的查詢。
相關子查詢是一種包含子查詢的特殊類型的查詢。查詢里包含的子查詢會真正請求外部查詢的值,從而形成一個類似於循環的狀況。</b?返回參數和output參數之間的區別是什麼?>

❹ 數據分析師常見的面試問題

關於數據分析師常見的面試問題集錦

1、你處理過的最大的伏汪隱數據量?你是如何處理他們的?處理的結果。

2、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?

3、什麼是:提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8原則?

4、什麼是:協同過濾、n-grams, map rece、餘弦距離?

5、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?

6、如何設計一個解決抄襲的方案?

7、如何檢驗一個個人支付賬戶都多個人使用?

8、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?

9、你認為哪個更好:是好的數據還是好模型?同時你是如何定義「好」?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麼好?

10、什麼是概率合並(aka模糊融合)?使用sql處理還是其它語言方便?對於處理半結構化的數據你會選擇使用哪種語言?

11、你是如何處理缺少數據的?你推薦使用什麼樣的處理技術?

12、你最喜歡的編程語言是什麼?為什麼?

13、對於你喜歡的統計軟體告訴你喜歡的與不喜歡的3個理由。

14、sas, r, python, perl語言的區別是?

15、什麼是大數據的詛咒?

16、你參與過資料庫與數據模型的設計嗎?

17、你是否參與過儀表盤的設計及指標選擇?你對於商業智能和報表工具有什麼想法?

18、你喜歡td資料庫的什麼特徵?

19、如何你打算發100萬的營銷活動郵件。你怎麼去優化發送?你怎麼優化反應率?能把這二個優化份開嗎?

20、如果有幾個客戶查詢oracle資料庫的效率很低。為什麼?你做什麼可以提高速度10倍以上,同時可以更好處理大數量輸出?

21、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系資料庫更好?

22、什麼是哈希表碰撞攻擊?怎麼避免?發生的頻率是多少?

23、如何判別maprece過程有好的負載均衡?什麼是負載均衡?

24、請舉例說明maprece是如何工作的?在什麼應用場景下工作的很好?雲的安全問題有哪些?

25、(在內存滿足的情況下)你認為是100個小的哈希表好還是一個大的哈希表,對於內在或者運行速度來說?對於資料庫分析的評價?

26、為什麼樸素貝葉斯差?你如何使用樸素貝葉斯缺廳來改進爬蟲檢驗演算法?

27、你處理過白名單嗎?主要的規則?(在欺詐或者爬行檢驗的情況下)

28、什麼是星型模型?什麼是查詢表?

29、你可以使用excel建立邏輯回歸模型嗎?如何可以,說明一下建立過程?

30、在sql, perl, c++, python等編程過程上,待為了提升速度優化過相關代碼或者演算法嗎?如何及提升多少?

31、使用5天完成90%的精度的解決方案還是花10天完成100%的精度的解決方案?取決於什麼內容?

32、定義:qa(質量保障)、六西格瑪、實驗設計。好的與壞的實驗設計能否舉個案例?

33、普通線性回歸模型的缺陷是什麼陵喚?你知道的其它回歸模型嗎?

34、你認為葉數小於50的決策樹是否比大的好?為什麼?

35、保險精算是否是統計學的一個分支?如果不是,為何如何?

36、給出一個不符合高斯分布與不符合對數正態分布的數據案例。給出一個分布非常混亂的數案例。

37、為什麼說均方誤差不是一個衡量模型的好指標?你建議用哪個指標替代?

38、你如何證明你帶來的演算法改進是真的有效的與不做任何改變相比?你對a/b測試熟嗎?

39、什麼是敏感性分析?擁有更低的敏感性(也就是說更好的強壯性)和低的預測能力還是正好相反好?你如何使用交叉驗證?你對於在數據集中插入雜訊數據從而來檢驗模型的.敏感性的想法如何看?

40、對於一下邏輯回歸、決策樹、神經網路。在過去XX年中這些技術做了哪些大的改進?

41、除了主成分分析外你還使用其它數據降維技術嗎?你怎麼想逐步回歸?你熟悉的逐步回歸技術有哪些?什麼時候完整的數據要比降維的數據或者樣本好?

42、你如何建議一個非參數置信區間?

43、你熟悉極值理論、蒙特卡羅邏輯或者其它數理統計方法以正確的評估一個稀疏事件的發生概率?

44、什麼是歸因分析?如何識別歸因與相關系數?舉例。

45、如何定義與衡量一個指標的預測能力?

46、如何為欺詐檢驗得分技術發現最好的規則集?你如何處理規則冗餘、規則發現和二者的本質問題?一個規則集的近似解決方案是否可行?如何尋找一個可行的近似方案?你如何決定這個解決方案足夠好從而可以停止尋找另一個更好的?

47、如何創建一個關鍵字分類?

48、什麼是僵屍網路?如何進行檢測?

49、你有使用過api介面的經驗嗎?什麼樣的api?是谷歌還是亞馬遜還是軟體即時服務?

50、什麼時候自己編號代碼比使用數據科學者開發好的軟體包更好?

51、可視化使用什麼工具?在作圖方面,你如何評價tableau?r?sas?在一個圖中有效展現五個維度?

52、什麼是概念驗證?

53、你主要與什麼樣的客戶共事:內部、外部、銷售部門/財務部門/市場部門/it部門的人?有咨詢經驗嗎?與供應商打過交道,包括供應商選擇與測試。

54、你熟悉軟體生命周期嗎?及it項目的生命周期,從收入需求到項目維護?

55、什麼是cron任務?

56、你是一個獨身的編碼人員?還是一個開發人員?或者是一個設計人員?

57、是假陽性好還是假陰性好?

58、你熟悉價格優化、價格彈性、存貨管理、競爭智能嗎?分別給案例。

59、zillow』s演算法是如何工作的?

60、如何檢驗為了不好的目的還進行的虛假評論或者虛假的fb帳戶?

61、你如何創建一個新的匿名數字帳戶?

62、你有沒有想過自己創業?是什麼樣的想法?

63、你認為帳號與密碼輸入的登錄框會消失嗎?它將會被什麼替代?

64、你用過時間序列模型嗎?時滯的相關性?相關圖?光譜分析?信號處理與過濾技術?在什麼樣的場景下?

65、哪位數據科學有你最佩服?從哪開始?

66、你是怎麼開始對數據科學感興趣的?

67、什麼是效率曲線?他們的缺陷是什麼,你如何克服這些缺陷?

68、什麼是推薦引擎?它是如何工作的?

69、什麼是精密測試?如何及什麼時候模擬可以幫忙我們不使用精密測試?

70、你認為怎麼才能成為一個好的數據科學家?

71、你認為數據科學家是一個藝術家還是科學家?

72、什麼是一個好的、快速的聚類演算法的的計算復雜度?什麼好的聚類演算法?你怎麼決定一個聚類的聚數?

73、給出一些在數據科學中「最佳實踐的案例」。

74、什麼讓一個圖形使人產生誤解、很難去讀懂或者解釋?一個有用的圖形的特徵?

75、你知道使用在統計或者計算科學中的「經驗法則」嗎?或者在商業分析中。

76、你覺得下一個20年最好的5個預測方法是?

77、你怎麼馬上就知道在一篇文章中(比如報紙)發表的統計數字是錯誤,或者是用作支撐作者的論點,而不是僅僅在羅列某個事物的信息?例如,對於每月官方定期在媒體公開發布的失業統計數據,你有什麼感想?怎樣可以讓這些數據更加准確?

;

❺ 資料庫常見筆試面試題

資料庫常見筆試面試題

資料庫常見筆試面試題有哪些?資料庫常見筆試面試會考什麼?下面是資料庫常見面試題總結,為大家提供參考。

1、SQL的表連接方式有哪些?

SQL中連接按結果集分為:內連接,外連接,交叉連接

內連接:inner join on,兩表都滿足的組合。內連接分為等值連接,不等連接,自然連接。

等值連接:兩表中相同的列都會出現在結果集中。

自然連接:兩表中具體相同列表的列會合並為同一列出現在結果集中。

外連接:分為左(外)連接,右(外)連接,全連接

左(外)連接:A left (outer) join B,以A表為基礎,A表的全部數據,B表有的組合,沒有的為null。

右(外)連接:A right(outer) join B,以B表為基礎,B表的全部數據,A表有的組合,沒有的位null。

全連接:A full (outer) join 兩表相同的組合在一起,A表有,B表沒有的數據(顯示為null),同樣B表有,A表沒有的顯示為null。

交叉連接:cross join,就是笛卡爾乘積。

2、三範式

1NF:表中的欄位都是單一屬性,不再可分。

2NF:在1NF的基礎上,表中所有的非主屬性都必須完全依賴於任意一組候選鍵,不能僅依賴於候選鍵中的某個屬性。

3NF:在2NF的基礎上,表中所有的屬性都不依賴其他非主屬性。

簡單的說就是:1NF表示每個屬性不可分割,2NF表示非主屬性不存在對主鍵的部分依賴,3NF表示不存在非主屬性對主鍵的依賴傳遞。

3、表的操作

表的創建:create table 表名 (列名1 類型 約束,列2 類型 約束…)

表的刪除: 表名

表的更改(結構的更改,不是記錄的更新):alter table 表名 add|drop 列名|約束名

插入記錄: into 表名…values…

更新記錄:表名 set 列名=值 where 條件

刪除記錄: from 表名 where 條件

4、數據的完整性

數據完整性指的是存儲在資料庫中的數據的一致性和准確性。

完整性分類:

(1)實體完整性:主鍵值必須唯一且非空。(主鍵約束)

(2) 引用完整性(也叫參照完整性):外鍵要麼為空,要麼引用主表中存在的記錄。(外鍵約束)。

(3)用戶自定義完整性:針對某一具體關系資料庫中的約束條件。

5、SQL的查詢優化

(1)從表連接的角度優化:盡量使用內連接,因為內連接是兩表都滿足的行的組合,而外連接是以其中一個表的全部為基準。

(2)盡量使用存儲過程代替臨時寫SQL語句:因為存儲過程是預先編譯好的SQL語句的集合,這樣可以減少編譯時間。

(3)從索引的角度優化:對那些常用的查詢欄位簡歷索引,這樣查詢時值進行索引掃描,不讀取數據塊。

(4)還有一些常用的select優化技巧:

(5)A.只查詢那些需要訪問的欄位,來代替select*

B、將過濾記錄越多的where語句向前移:在一個SQL語句中,如果一個where條件過濾的資料庫記錄越多,定位越准確,則該where條件越應該前移。

6、索引的作用,聚集索引與非聚集索引的區別

索引是一個資料庫對象,使用索引,可以是資料庫程序無須對整個數據進行掃描,就可以在其中找到目標數據,從而提高查找效率。索引的底層採用的是B樹。

聚集索引:根據記錄的key再表中排序數據行。

非聚集索引:獨立於記錄的結構,非聚集所以包含的`key,且每個鍵值項都有指向該簡直的數據行的指針。

聚集索引與非聚集索引的區別:

(1)聚集索引的物理存儲按索引排序,非聚集所以的物理存儲不按索引排序。

(2) 聚集索引插入,更新數據的速度比非聚集索引慢,單查詢速度更快。

(3) 聚集索引的葉級結點保存的是時間的數據項,而非聚集結點的葉級結點保存的是指向數據項的指針。

(4)一個表只能有一個聚集索引(因為只有一種排序方式),但可以有多個非聚集索引。

7、存儲過程與函數的區別

(1)函數有返回值,存儲過程沒有返回值。

(2) 因為存儲過程沒有返回值,所以不能將存儲過程的執行結果賦值給變數;函數有返回值類型,調用函數時,可以將函數的執行結果賦值給變數。也就是說,函數可以在select語句中使用,而存儲過程則不能。


;

❻ 常見大數據公司面試問題有哪些

1、您對“大數據”一詞有什麼了解?


答: 大數據是與復雜和大型數據集相關的宴派術語。關系資料庫無法處理大數據,這就是為什麼使用特殊的工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還使公司能夠根據數據做出更好的業務決策。散祥滲


2、告訴我們大數據和Hadoop之間的關系。


答: 大數據和Hadoop幾乎是同義詞。隨著大數據的興起,專門用於大數據操作的Hadoop框架也開始流行。專業人士可以使用該框架來分析大數據並幫助企業做出決策。


注意: 在大數據采訪中通常會問這個問題。 可以進一步去回答這個問題,並試圖解釋的Hadoop的主要組成部分。


3、大數據分析如何有助於增加業務收入?


答:大數據分析對於企業來說已經變得非常重要。它可以幫助企業與眾不同,並增加收入。通過預測分析,大數據分析為企業提供了定製的建議。此外,沖脊大數據分析使企業能夠根據客戶的需求和偏好推出新產品。這些因素使企業獲得更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。

熱點內容
特斯拉在哪裡輸入密碼 發布:2025-01-23 04:05:29 瀏覽:205
影視腳本創作 發布:2025-01-23 04:00:39 瀏覽:844
cmd腳本執行sql腳本 發布:2025-01-23 03:46:51 瀏覽:115
搭建100人的游戲伺服器 發布:2025-01-23 03:37:43 瀏覽:517
b站台解析伺服器ip 發布:2025-01-23 03:36:12 瀏覽:203
安卓手機在哪裡看港劇 發布:2025-01-23 03:35:30 瀏覽:52
黑漫的伺服器ip 發布:2025-01-23 03:16:40 瀏覽:651
tplink無internet訪問 發布:2025-01-23 03:15:18 瀏覽:567
原神用安卓手機玩為什麼畫質那麼低 發布:2025-01-23 03:09:31 瀏覽:848
空調壓縮機是外機嗎 發布:2025-01-23 03:09:31 瀏覽:951