当前位置:首页 » 云服务器 » 阿里云服务器不稳定

阿里云服务器不稳定

发布时间: 2022-11-18 23:30:14

Ⅰ 用dede做的网站,隔一段时间总会出现以下情况,用的是阿里云服务器。请高手帮忙

我之前遇到过,是微软补丁造成的,你可以直接把KB967723 卸载掉。另外你可以打开注册表找到HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters
菜单上单击 新建,
数值名称: MaxUserPort
值类型: DWORD
值数据: 65534
有效范围: 5000-65534 (十进制)
默认值: 0x1388 (5000 十进制)
说明: 此参数将控制程序从系统

也可以直接复制以下注册表,复制到记录本中,保存为 *.reg 再双击导入就OK了。

1Windows Registry Editor Version 5.00
2[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters]
3"MaxUserPort"=dword:0000fffe

Ⅱ 阿里云波动什么意思

其实就是指服务器的波动。波动就是指的不稳定。
有时候阿里云会发一些通知通告因为香港网络波动导致阿里云机器目前网络波动,实际上就是指阿里云的服务器波动的意思。
云服务器(Elastic Compute
Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a
Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用,实现计算资源的即开即用和弹性伸缩。

Ⅲ 阿里云ECS的CPU100%排查

一、背景和现象

初创公司,架构lanmp,web前端和后端分开服务器,业务驱动主要是nginx和apache,nginx主要是处理静态文件和反向代理,前后端、搜索引擎、缓存、队列等附加的服务都是用docker容器部署。因为比较初级,上传文件和采集文件都是直接写在硬盘上,涉及到的目录共享,就在其中一台服务器存储并且nfs共享。我们暂且分为ECS1(apache1)、ECS2(apache2)、ECS3(nginx)。某天网站业务中断,但是没有报错。一直在等待响应,默认响应超时是一分钟,所以很基础高可用没有起到作用。中断10分钟左右,重启服务,提示“open too many files”,但是lsof统计没几个。因为初级处理不了,所以直接重启服务器,一段时间后一切恢复正常,可是第二天又来一次这种情况。

二、第一次出现后的排查思路

本来第一次发现这种问题的时候就要追查原因了,看了一下zabbix监控图像其中断了十分钟,包括网络、内存、CPU、硬盘、IO等监控数据。首先想到的是网络问题,结论是zabbix-servert获取不到了zabbix-agent采集的数据,估计就是网络不通了。

但是,这个结论站不住脚,因为我本身通过ssh登录服务器,并且命令输入无卡顿,不至于头文件都传不过来。后来一看阿里云的云监控,上面有数据,似乎也可以佐证网络这个说法,因为云监控是阿里云内部的监控,可以内网获取到监控数据。直到看CPU的使用率这项,发现有一段时间的CPU使用率100%。并且我重启的时候CPU恢复正常,不能说网络一定没问题,但系统肯定有问题。也可以解释因为CPU使用已经是100%,zabbix-agent和根本不能正常运行,所以没有监控数据。因为这个公司全部都是云服务器,没有使用IDC所以我们也没有安装smokeping来监控,接着我们就不把重心在网络上了。

目前掌握的信息就是:在毫无征兆的情况下,CPU暴涨到100%,重启之前一直保留,重启之后恢复原样。匆忙之中又看了一下系统各日志,因为太匆忙,没有总结,没有找到什么有价值的东西。现在有下面几种猜想:第一,程序的bug或者部署不当,触发之后耗尽资源。第二、docker容器的bug。第三、网络攻击。第四、病毒入侵。第五、阿里云方系统不稳定。

小总结了一下,现在问题还没有找出来。下次还有这个问题的可能,所以先尽量防范,但是又不能重启一刀切。所以在zabbix上面设置了自动化,当检测到ECS1获取不到数据的时候马上操作ECS3标记后端为ECS1的apache为down。保留异常现场。(请求停止的时候,CPU100%还在)

三、现场排查

1、相应的排查计划(想到这些信息需要获取的,实际上没有严格按照这样的步骤)

1)用htop和top命令监控CPU、内存使用大的进程。先看看哪个进程消耗资源较多,用户态、内核态、内存、IO……同时sar -b查io的 历史 定时抽样。

2)统计tcp连接数,看看有没有DDOS攻击。netstat -anp |grep tcp |wc -l 。用iftop-i eth1看看通讯。同时用tail -n 1200 /var/log/messages查看内核日志。

3)用pstree查看打开进程,ps aux|wc-l看看有没有特别多的进程。虽然zabbix监控上说没有,但是我们要检查一下看看有没有异常的进程名字。

4)查看全部容器的资源使用docker stats $(docker ps -a -q),看看能不能从容器上排查。

5)有了“too many open files”的启发,计算打开文件数目lsof|wc -l,根据进程看看ll /proc/PID/fd文件描述符有没有可疑的打开文件、文件描述符。

6)关于用lsof打开文件数找到的线索,排序打开文件找出进程号 lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more

7)关于用lsof打开文件数找到的线索,用lsof -p PID查看进程打开的句柄。直接查看打开的文件。

8)启动容器的时候又总是“open too many files"。那就是打开文件数的问题,因为CPU的使用率是CPU的使用时间和空闲时间比,有可能因为打开文件数阻塞而导致CPU都在等待。针对连接数的问题,大不了最后一步试试echo 6553500 > /proc/sys/fs/file-max 测试打开文件对CPU的影响。

9)玩意测出来了消耗CPU的进程,可以使用strace最终程序。用户态的函数调用跟踪用“ltrace”,所以这里我们应该用“strace”-p PID

10)从程序里面看到调用系统底层的函数可以跟踪。跟踪操作 strace -T -e * -p PID,主要看看代码调用的函数有没有问题。

2、现场排查

第二天同样时间,ECS果然暴涨了CPU。这是时候zabbix的工作如希望进行保留了一台故障的ECS1给我。

1)用htop看到资源使用最大是,搜索引擎下我写的一个判断脚本xunsearch.sh。脚本里面很简单,判断索引和搜索服务缺一个就全部重启。就当是我的容器有问题我直接关掉搜索引擎容器。httpd顶上,我又关掉apache容器。rabbitmq相关进程又顶上。这时候我没心情周旋了,肯定不也是这个原因。sar -b查看的 历史 io也没有异常。

2)统计tcp连接,几百。先不用着重考虑攻击了。用tail -n 1200 /var/log/messages查看内核日志,是TCP TIME WAIT的错误。可以理解为CPU使用100%,程序无响应外面的tcp请求超时。这是结果,还是没有找到根本原因。

接着往下看系统内核日志,发现了和“open too many files”呼应的错误,“file-max limit 65535 reached”意思是,已到达了文件限制瓶颈。这里保持怀疑,继续收集其他信息。

3)查看进程数量,数量几百。列出来也看到都是熟悉的进程,可以先排除异常进程。

4)监控容器的资源使用,里面很不稳定,首先是xunsearch容器使用80%的CPU,关掉xunsearch,又变成了其他容器使用CPU最高。很大程度上可以排查容器的问题和执行程序的问题。

5)查看了最大连接数cat /proc/sys/fs/file-max是65535但是用lsof查到的连接数是10000多,完全没有达到连接数。

6)各项参数都正常,现在聚焦在打开的文件数这个问题上面。也可以用另外同一种方式查看一下内核统计文件 /proc/sys/fs/file-nr,比较一下差异,看看能不能找出问题。cat了一下,打开文件数是66080,果然超了!内核日志就以这个为标准。

但是看lsof怎么统计不出来,ll /proc/PID/fd也没几个。这个问题放在后面,先按照步骤echo 6553500 > /proc/sys/fs/file-max给连接数提高到100倍,CPU果然降了下来。原因确认了,但是必须找到根源,为什么忽然有这么大的打开文件数。关掉全部docker容器和docker引擎,打开文件数是少了一点,但是仍然在65535差不多。我就先排除一下业务的影响,把ECS3的nginx直接指向视频ECS2的apache,就等同于在ECS2上实现了ECS1的场景。查看一下ECS2的句柄数,才4000多,排除了业务相关应用对服务器的影响。那就能下个小结论,ECS1被神秘程序打开了6万多句柄数,打开业务就多了2000多的句柄数,然后就崩溃了。不过这个现象有点奇怪,ECS2和ECS1在一样的机房一样的配置一样的网络环境,一样的操作系统,一样的服务,一样的容器,为什么一个有问题,一个没问题呢?不同的只是有一台是共享nfs。难道是静态文件共享了,其他人读了,也算是本服务器打开的?

7)现在程序找不到,没法继续lsof -p了。排查之前的猜想。带着排查得到对的结论往下想。

程序的bug和部署不当,那是不可能的,因为主要问题来自于打开句柄数,当部署到ECS2那里,一切正常。docker容器的bug,那也不可能的,每个都是我亲自写脚本,亲自编译,亲自构建的,关键是我关掉了docker容器和引擎都没有很大改善。网络攻击也排除,因为网络连接数没几个,流量也不变。那就只剩下病毒入侵也不是,没有异常进程。考虑到ECS的稳定性问题了。这方面就协助阿里云工程师去排查。

8)阿里云工程师用的排查手段和我差不多,最终也是没能看到什么。也只是给了我一些治标不治本的建议。后来上升到专家排查,专家直接在阿里云后端抓取了coremp文件分析打开的文件是图片,程序是nfsd。

好像印证了我刚才后面的猜想,应该就是ECS1使用了nfs共享其他服务器打开了然后算在ECS1头上。那问题又来了,我们的业务已经到达了可以影响服务器的程度吗?

9)既然问题解决到这一步,先不管程序有没有关闭打开的文件和nfs的配置。我们架构上面的图片应该是归nginx读取,难道是linux的内存机制让它缓存了。带着缓存的问题,首先去ECS3上释放内存echo 3 > /proc/sys/vm/drop_caches,释放之后,发现没什么改善,有点失落。总是觉得还有一台后端是PHP主导,但是逻辑上是写入,没有打开文件之说。后来从程序员中了解到,PHP也有打开图片。我猛然去ECS2释放一下内存,果然,句柄数降下来。(这里大家一定有个疑问,为什么我直接想到内存缓存而不是目前打开的文件呢。其一,这是生产环境,web前端只有一个,不能乱来停服务。其二,第一次遇到问题的时候,重启之后没有问题,过了一天之后积累到一定的程度才爆发,这里已经引导了我的思路是积累的问题,那就是缓存不断积累了)

10)因为ECS2的调用ECS1的nfs共享文件,所以lsof也有读不到那么多句柄数的理由。如果说是nfs的服务本身就有缓存,导致问题的话,我查看了配置文件,还是默认值允许缓存,30S过期,根本不会因为nfs的缓存造成打开文件过多。如果我们的后端程序打开之后没好好处理的话,那倒有可能。然后尝试排除:我改了ECS3的配置,使程序只读ECS1后端,从ECS1上面却看不到有什么异常表现,说明PHP程序已经好好处理了打开的文件。也不是docker挂载了nfs的共享的问题,因为nginx也有挂载。排查到这里也很大程度上解决问题,而且缓存了nfs的全部共享文件,句柄并没有增加,也算合理,所以就增加了打开文件数的限制。

11)现在排查的结果是跟后端和nfs共享有关。就是说,后端挂载了nfs的网络共享,被程序读取。而程序释放之后,在正常背景的硬盘文件是没有缓存的。但是在nfs挂载的环境下,缓存并没有得到释放。

12)总结:很多问题的排查和我们的猜想结果一样,但是有些例外的情况。比如这次我想到的原因都一一排除,但是问题也是在一步步排查中,逐步被发现的。

Ⅳ 阿里云腾讯云服务器官方性能及实际体验对比

阿里云腾讯云服务器性能对比

阿里云我自己的服务器,2核8G的,1个物理CPU.1个物理核心,两线程

4核=核8g,1个物理CPU  2个物理核心,4线程

腾讯云sa24核8g    一个物理CPU,4个物理核心,,4线程

实际体验:腾讯云的redis会掉,阿里云的没有遇到过,扔开性能指数,还是阿里云的稳定些

腾讯云的不稳定点,性价比腾讯云还是可以吧,sa2做活动服务商那边拿真便宜!!

腾讯官方活动链接

阿里官方活动链接

以下是腾讯官网的一些数据

腾讯云标准型 S5

2.5GHz Intel® Xeon® Cascade Lake 处理器,2.5GHz,睿频3.1GHz,搭配最新一代六通道 DDR4,内存计算性能稳定

规格vCPU内存(GB)网络收发包(pps)队列数内网带宽能力(Gbps)主频备注

S5.SMALL11125万11.52.5GHz-

S5.SMALL21225万11.52.5GHz-

S5.SMALL41425万11.52.5GHz-

S5.MEDIUM42430万21.52.5GHz-

S5.MEDIUM82830万21.52.5GHz-

S5.LARGE84850万21.52.5GHz-

S5.LARGE1641650万21.52.5GHz-

S5.2XLARGE1681680万23.02.5GHz-

S5.2XLARGE3283280万23.02.5GHz-

S5.4XLARGE321632150万46.02.5GHz-

S5.4XLARGE641664150万46.02.5GHz-

S5.6XLARGE482448200万69.02.5GHz-

S5.6XLARGE962496200万69.02.5GHz-

S5.8XLARGE643264250万8122.5GHz-

S5.8XLARGE12832128250万8122.5GHz-

S5.12XLARGE964896400万1217.02.5GHz-

S5.12XLARGE19248192400万1217.02.5GHz-

S5.16XLARGE25664256500万1623.02.5GHz-

腾讯云s4

标准型 S4 实例采用至强®处理器 Skylake 全新处理器,内存采用最新最新一代六通道 DDR4 内存,,默认网络优化,内存带宽达2666MT/s最高内网收发能力达600万pps,最高内网带宽可支持25Gbps。

服务器    2.4GHz Intel® Xeon® Skylake 6148 最新一代六通道 DDR4 内存

规格vCPU内存(GB)网络收发包(pps)队列数内网带宽能力(Gbps)主频备注

S4.SMALL11125万11.52.4GHz-

S4.SMALL21225万11.52.4GHz-

S4.SMALL41425万11.52.4GHz-

S4.MEDIUM42430万21.52.4GHz-

S4.MEDIUM82830万21.52.4GHz-

S4.LARGE84850万21.52.4GHz-

S4.LARGE1641650万21.52.4GHz-

S4.2XLARGE1681680万23.02.4GHz-

S4.2XLARGE3283280万23.02.4GHz-

S4.4XLARGE321632150万46.02.4GHz-

S4.4XLARGE641664150万46.02.4GHz-

S4.6XLARGE482448200万68.02.4GHz-

S4.6XLARGE962496200万68.02.4GHz-

S4.8XLARGE643264250万811.02.4GHz-

S4.8XLARGE12832128250万811.02.4GHz-

S4.12XLARGE964896400万1216.02.4GHz-

S4.12XLARGE19248192400万1216.02.4GHz-

S4.16XLARGE12864128500万1622.02.4GHz-

S4.16XLARGE25664256500万1622.02.4GHz-

S4.18XLARGE28872288600万1624.02.4GHz-

腾讯云标准型SA2配置参数

CPU处理器:AMD EPYC ROME新一代处理器,主频2.6GHz,睿频3.3GHz。

内存:最新一代八通道 DDR4,内存计算性能稳定。

网络:超高网络收发包能力达750万pps,最大网络带宽25Gbps。

规格vCPU内存(GB)网络收发包(pps)队列数内网带宽能力(Gbps)主频备注

SA2.SMALL11125万11.52.6GHz-

SA2.SMALL21225万11.52.6GHz-

SA2.SMALL41425万11.52.6GHz-

SA2.MEDIUM42430万21.52.6GHz-

SA2.MEDIUM82830万21.52.6GHz-

SA2.LARGE84850万21.52.6GHz-

SA2.LARGE1641650万21.52.6GHz-

SA2.2XLARGE1681670万21.52.6GHz-

SA2.2XLARGE3283270万21.52.6GHz-

SA2.4XLARGE321632100万43.02.6GHz-

SA2.4XLARGE641664100万43.02.6GHz-

SA2.8XLARGE643264140万85.02.6GHz-

SA2.12XLARGE964896210万127.02.6GHz-

SA2.16XLARGE12864128280万169.02.6GHz-

SA2.20XLARGE16080160350万1612.02.6GHz-

SA2.22XLARGE22490224375万1613.02.6GHz-

SA2.24XLARGE19296192420万1614.02.6GHz-

SA2.32XLARGE256128256560万3218.02.6GHz-

SA2.40XLARGE320160320710万3223.02.6GHz-

SA2.45XLARGE464180464750万3225.02.6GHz-

Ⅳ ffmpeg推送本地局域网海康威视摄像头rtsp流到阿里云上自己搭建的nginx流服务器为什么不稳定

网络不稳定造成的。
ffmpeg哪有那么智能,没有断点续传。

Ⅵ 阿里云服务器太不安全了,老是被攻击,工作人员就负责把服务器给我关了

阿里云现在不比以前了!服务没有以前那么好了!提交一个工单跟你玩了7天,关键是问题还没解决,最后的答复是就是要你备份好文件,重装系统。最可气的就是一个工单换了好几个人跟只能要他联系你。10分钟的事情硬是搞个3-5天。----以上是我亲身经历的!要工单截图我都可以给你。

建议

远离大平台:

1,客户多别人照顾不了你这样的小客户。

2,阿里云向别人说的没有防御系统都是炒房子一样过来这阵风基本上也就拜拜了。

选择适合自己的平台

1,如果是公司网站可以选择一些像网络云,华为云,腾讯云的代理机构。因为他要赚钱必须把你当上帝。服务也及时。还会免费的教你怎么怎么弄。

Ⅶ 阿里云服务器又挂了,最近为什么这么不稳定

挂的这么频繁,为了对自己负责任,对自己的数据负责任,建议你换一家,小鸟云家的服务器就不错,可以考察看看!

Ⅷ 你好,在网速不慢的情况下,阿里云服务器很卡有没有解决办法

既然网速已经测试过了是正常的,则说明使用阿里云服务器有问题就是其他原因了,大体有如下几种,登录的服务器与自己的宽带不是同一运营商,这属于运营商之间的网络瓶颈,只能更换同一运营商的服务器。另外还可能此服务器端口速率过低或者处理能力不行造成的。

Ⅸ 阿里云服务器为何非常慢是什么原因

原因很多,有可能是程序问题,也可能是访问量太大,也可能是服务器配置太低,这个可以升级的。

Ⅹ 阿里云服务器速度测试,1M带宽,怎么是这么慢的,我太失望了

1M带宽本身就会有感觉不稳定的现象,这其实并没有什么好办法,只能说是提升下带宽,再或使用负载均衡,或者按流量计费了。

热点内容
数据库数据的一致性 发布:2025-01-11 17:30:45 浏览:707
手机怎么设置手势安卓 发布:2025-01-11 17:15:54 浏览:964
威能壁挂炉解压阀 发布:2025-01-11 17:15:53 浏览:559
突破服务器ip限制 发布:2025-01-11 17:11:23 浏览:818
支付宝上传凭证 发布:2025-01-11 17:10:29 浏览:876
怎么打开行李箱的密码锁 发布:2025-01-11 17:09:51 浏览:593
苹果怎么删除id账号和密码 发布:2025-01-11 17:09:50 浏览:784
7z解压很慢 发布:2025-01-11 16:51:23 浏览:942
电脑改文档服务器 发布:2025-01-11 16:41:14 浏览:870
编译汇编语言实例 发布:2025-01-11 16:36:55 浏览:671