数仓面试算法

发布时间: 2023-12-15 09:26:31

A. 测试开发面试必知算法

测试开发的技能之一就是需要掌握一些开发的语言，而针对于考察开发语言，业界内比较容易采用的方式就是考察各种算法。在此做一个简单的总结（最近比较喜欢玩Python，所以都是以Python为例子，其它的语言类推。）

冒泡排序

冒泡排序算法的运作如下：（从后往前）
比较相邻的元素。如果第一个比第二个大，就交换他们两个。
对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。在这一点，最后的元素应该会是最大的数。
针对所有的元素重复以上的步骤，除了最后一个。
持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。

实例：对列表 [2, 8, 4, 7, 5, 9, 0]进行冒泡排序

递归

递归过程一般通过函数或子过程来实现。递归方法：在函数或子过程的内部，直接或者间接地调用自己的算法。

实例：要计算1-10的10位数字的乘积，直观的算法是1 2 3 4 5 6 7 8 9，利用递归则思路是循环执行n*n-1,直到n=1时

二叉树遍历算法
从二叉树的递归定义可知，一棵非空的二叉树由根结点及左、右子树这三个基本部分组成。因此，在任一给定结点上，可以按某种次序执行三个操作：
⑴访问结点本身（N），
⑵遍历该结点的左子树（L），
⑶遍历该结点的右子树（R）。
以上三种操作有六种执行次序含数唤：
NLR、LNR、LRN、NRL、RNL、RLN。

二叉树的节点表示可以使用

前序遍历：根节点->左子树->右子树
中谈凯序遍历：左子树->根节点->右子树
后序遍历：左子树->右子树->根节点

实例：求二毕或叉树深度和宽度
求深度用递归；求宽度用队列，然后把每层的宽度求出来，找出最大的就是二叉树的宽度

字符串倒序输出

思路一：索引的方法

思路二：借组列表进行翻转

后续还有的话会继续添加的。

B. 面试必会八大排序算法（Python）

一、插入排序

介绍

插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中，从而得到一个新的、个数加一的有序数据。

算法适用于少量数据的排序，时间复杂度为O(n^2)。

插入排算法是稳定的排序方法。

步骤

①从第一个元素开始，该元素可以认为已经被排序

②取出下一个元素，在已经排序的元素序列中从后向前扫描

③如果该元素（已排序）大于新元素，将该元素移到下一位置

④重复步骤3，直到找到已排序的元素小于或者等于新元素的位置

⑤将新元素插入到该位置中

⑥重复步骤2

排序演示

算法实现

二、冒泡排序

介绍

冒泡排序（Bubble Sort）是一种简单的排序算法，时间复杂度为O(n^2)。

它重复地走访过要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。

这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。

原理

循环遍历列表，每次循环找出循环最大的元素排在后面；

需要使用嵌套循环实现：外层循环控制总循环次数，内层循环负责每轮的循环比较。

步骤

①比较相邻的元素。如果第一个比第二个大，就交换他们两个。

②对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。在这一点，最后的元素应该会是最大的数。

③针对所有的元素重复以上的步骤，除了最后一个。

④持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。

算法实现：

三、快速排序

介绍

快速排序（Quicksort）是对冒泡排序的一种改进，借用了分治的思想，由C. A. R. Hoare在1962年提出。

基本思想

快速排序的基本思想是：挖坑填数 + 分治法。

首先选出一个轴值(pivot，也有叫基准的)，通过一趟排序将待排记录分隔成独立的两部分，其中一部分记录的关键字均比另一部分的关键字小，则可分别对这两部分记录继续进行排序，以达到整个序列有序。

实现步骤

①从数列中挑出一个元素，称为 “基准”（pivot）；

②重新排序数列，所有元素比基准值小的摆放在基准前面，所有元素比基准值大的摆在基准的后面（相同的数可以到任一边）；

③对所有两个小数列重复第二步，直至各区间只有一个数。

排序演示

算法实现

四、希尔排序

介绍

希尔排序（Shell Sort）是插入排序的一种，也是缩小增量排序，是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法，时间复杂度为：O(1.3n)。

希尔排序是基于插入排序的以下两点性质而提出改进方法的：

·插入排序在对几乎已经排好序的数据操作时，效率高，即可以达到线性排序的效率；

·但插入排序一般来说是低效的，因为插入排序每次只能将数据移动一位。

基本思想

①希尔排序是把记录按下标的一定量分组，对每组使用直接插入算法排序；

②随着增量逐渐减少，每组包1含的关键词越来越多，当增量减至1时，整个文件恰被分成一组，算法被终止。

排序演示

算法实现

五、选择排序

介绍

选择排序(Selection sort)是一种简单直观的排序算法，时间复杂度为Ο(n2)。

基本思想

选择排序的基本思想：比较 + 交换。

第一趟，在待排序记录r1 ~ r[n]中选出最小的记录，将它与r1交换；

第二趟，在待排序记录r2 ~ r[n]中选出最小的记录，将它与r2交换；

以此类推，第 i 趟，在待排序记录ri ~ r[n]中选出最小的记录，将它与r[i]交换,使有序序列不断增长直到全部排序完毕。

排序演示

选择排序的示例动画。红色表示当前最小值，黄色表示已排序序列，蓝色表示当前位置。

算法实现

六、堆排序

介绍

堆排序（Heapsort）是指利用堆积树（堆）这种数据结构所设计的一种排序算法，它是选择排序的一种。

利用数组的特点快速指定索引的元素。

基本思想

堆分为大根堆和小根堆，是完全二叉树。

大根堆的要求是每个节点的值不大于其父节点的值，即A[PARENT[i]] >=A[i]。

在数组的非降序排序中，需要使用的就是大根堆，因为根据大根堆的要求可知，最大的值一定在堆顶。

排序演示

算法实现

七、归并排序

介绍

归并排序（Merge sort）是建立在归并操作上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。

基本思想

归并排序算法是将两个（或两个以上）有序表合并成一个新的有序表，即把待排序序列分为若干个子序列，每个子序列是有序的。然后再把有序子序列合并为整体有序序列。

算法思想

自上而下递归法（假如序列共有n个元素）

① 将序列每相邻两个数字进行归并操作，形成 floor(n/2)个序列，排序后每个序列包含两个元素；

② 将上述序列再次归并，形成 floor(n/4)个序列，每个序列包含四个元素；

③ 重复步骤②，直到所有元素排序完毕。

自下而上迭代法

① 申请空间，使其大小为两个已经排序序列之和，该空间用来存放合并后的序列；

② 设定两个指针，最初位置分别为两个已经排序序列的起始位置；

③ 比较两个指针所指向的元素，选择相对小的元素放入到合并空间，并移动指针到下一位置；

④ 重复步骤③直到某一指针达到序列尾；

⑤ 将另一序列剩下的所有元素直接复制到合并序列尾。

排序演示

算法实现

八、基数排序

介绍

基数排序（Radix Sort）属于“分配式排序”，又称为“桶子法”。

基数排序法是属于稳定性的排序，其时间复杂度为O (nlog(r)m) ，其中 r 为采取的基数，而m为堆数。

在某些时候，基数排序法的效率高于其他的稳定性排序法。

基本思想

将所有待比较数值（正整数）统一为同样的数位长度，数位较短的数前面补零。然后，从最低位开始，依次进行一次排序。这样从最低位排序一直到最高位排序完成以后，数列就变成一个有序序列。

基数排序按照优先从高位或低位来排序有两种实现方案：

MSD（Most significant digital）从最左侧高位开始进行排序。先按k1排序分组, 同一组中记录, 关键码k1相等,再对各组按k2排序分成子组, 之后, 对后面的关键码继续这样的排序分组, 直到按最次位关键码kd对各子组排序后. 再将各组连接起来,便得到一个有序序列。MSD方式适用于位数多的序列。

LSD （Least significant digital）从最右侧低位开始进行排序。先从kd开始排序，再对kd-1进行排序，依次重复，直到对k1排序后便得到一个有序序列。LSD方式适用于位数少的序列。

排序效果

算法实现

九、总结

各种排序的稳定性、时间复杂度、空间复杂度的总结：

平方阶O(n²)排序：各类简单排序：直接插入、直接选择和冒泡排序；

从时间复杂度来说：

线性对数阶O(nlog₂n)排序：快速排序、堆排序和归并排序；

O(n1+§))排序，§是介于0和1之间的常数：希尔排序；

线性阶O(n)排序：基数排序，此外还有桶、箱排序。

C. 面试经典数据结构和算法汇总

如果说数据结构是骨架，那么算法就是灵魂。没了骨架，灵魂没有实体寄托；没了灵魂，骨架也是个空壳。两者相辅相成，缺一不可，在开发中起到了砥柱中流的作用。

现在我对各种数据结构和算法做一总结，对比一下它们的效率

1.数据结构篇
1. 如果让你手写个栈和队列，你还会写吗？
2. 开发了那么多项目，你能自己手写个健壮的链表出来吗？
3. 下次面试若再被问到二叉树，希望你能对答如流！
4. 面试还在被红-黑树虐？看完这篇轻松搞定面试官！

2.排序算法篇
1. 几个经典的基础排序算法，你还记得吗？
2. 手把手教你学会希尔排序，很简单！
3. 快速排序算法到底有多快？
4. 五分钟教你学会归并排序
5. 简单说下二叉树排序
6. 学会堆排序只需要几分钟
7. 图，这个玩意儿竟然还可以用来排序！

掌握了这些经典的数据结构和算法，面试啥的基本上没什么问题了，特别是对于那些应届生来说。接下来再总结一下不同数据结构和算法的效率问题，做一下对比，这也是面试官经常问的问题。

数据结构常用操作效率对比：

常用排序算法效率的对比：

关于经典的数据结构和算法，就总结到这，本文建议收藏，利用等公交、各种排队之时提升自己。这世上天才很少，懒蛋却很多，你若对得起时间，时间便对得起你。

D. 算法岗面试都会考代码吗

会。
算法岗面试的第一关，手撕代码环节，主要考察你对数据结构和一般算法的掌握，以及作为码农最基本的编程能力。二至三道编程题写完之后，就进入到了面试的第二关，算法基础知识考察环节，这里的算法指的是机器学习、深度学习以及细分方向上，比如CV、NLP相关的算法知识。

E. 面试最常考的 100 道算法题分类整理

大家好，我是 “负雪明烛” ，一位用 7 年写了 1000 篇 LeetCode 算法题题解的程序员。欢迎关注。

粉丝常说： LeetCode 算法题太多了，准备面试该刷哪些题目 ？

我之前根据 LeetCode 上面的点赞量分享过： LeetCode 上最经典的 100 道算法题。

这 100 道题目都属于经典题目了，面试也常考，不过我还是不放心呢，毕竟 经典题 ≠ 面试题 呀！

但如果想知道面试常考的 100 道算法题的话，需要至少整理 1000 篇面经吧？这个工作量可不小啊！

还好，网上有个开源项目，帮我们做了这件事情，这个项目就是 CodeTop ！

这是网站的界面（地址： https://codetop.cc/home ），展示的就是每个面试题目出现的频度情况，甚至区分了公司和岗位：

这是开源项目的 GitHub 主页，已经 11.5k star ⭐️ 了：

这个项目中的题目来源是牛客网的面经、网友投票等，而且持续更新中，所以还是比较可靠的。

我对这个项目做了整理，分类整理出来面试常考的 100 道算法题。

在整理之后，我对结果还是有点惊讶的！因为一些常见的数据结构与算法，竟然没有在常考面试中出现过！

比如前缀和、前缀树、并查集、图，这些都没有出现……

最常考面试题还是很基本的链表、二叉树、动态规划等等，是不是符合你的认知呢？

强烈建议大家在面试前把这 100 道题目搞懂！

作为宠粉达人，我提供了 3 种方式查看这 100 道题目：

没有任何套路，直接分享给大家！

在线查看地址： https://www.mubucm.com/doc/7jiBYKCKqet

在线查看地址： https://leetcode-cn.com/problem-list/q3iOID0B/

所有题目的地址如下：

前序遍历

中序遍历

层序遍历

视图

如果你觉得对你有帮助的话，求赞、求分享、求收藏。你的每一点鼓励都是对我的最大帮助！

F. 面试会出哪些经典算法题

如下：

1、排序算法∶快速排序、归并排序、计数排序

2、搜索算法∶回溯、递归、剪枝技巧

3、图论∶最短路、最小生成树、网络流建模

4、动态规划：背包问题、最长子序列、计数问题

5、基础技巧：分治、倍增、二分、贪心

6、数组与链表：单/双向链表、跳舞链

7、栈与队列

8、树与图：最近公共祖先、并查集

9、哈希表

10、堆：大/小根堆、可并堆

11、字符串∶字典树、后缀树

算法简介：

算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。

如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

算法中的指令描述的是一个计算，当其运行时能从一个初始状态和（可能为空的）初始输入开始，经过一系列有限而清晰定义的状态，最终产生输出并停止于一个终态。一个状态到另一个状态的转移不一定是确定的。随机化算法在内的一些算法，包含了一些随机输入。

形式化算法的概念部分源自尝试解决希尔伯特提出的判定问题，并在其后尝试定义有效计算性或者有效方法中成形。

这些尝试包括库尔特·哥德尔、Jacques Herbrand和斯蒂芬·科尔·克莱尼分别于1930年、1934年和1935年提出的递归函数，阿隆佐·邱奇于1936年提出的λ演算，1936年Emil Leon Post的Formulation 1和艾伦·图灵1937年提出的图灵机。即使在当前，依然常有直觉想法难以定义为形式化算法的情况。

阅读全文

热点内容

华为honor6a如何重置密码发布：2025-01-21 05:37:30 浏览：987

黑客编程意思发布：2025-01-21 05:34:34 浏览：18

数据库服务器远程发布：2025-01-21 05:34:34 浏览：700

ftp断点续传工具发布：2025-01-21 05:13:42 浏览：990

哈弗h9买哪个配置划算发布：2025-01-21 05:01:19 浏览：641

微信视频如何重新缓存发布：2025-01-21 04:44:41 浏览：880

pdf压缩文件大小发布：2025-01-21 04:40:24 浏览：799

linux解压文件到指定发布：2025-01-21 04:38:36 浏览：875

自己做的安卓app怎么下载发布：2025-01-21 04:35:07 浏览：164

机顶盒加密频道发布：2025-01-21 04:26:48 浏览：318

数仓面试算法

与数仓面试算法相关的资讯