如何测试服务器温度
1. 普通计算机和大型服务器的GPU温度测量原理(硬件)
深度学习GPU工作站/服务器硬件配置方案
I
市场上用于深度学习训练计算机大致情况如下:
(1)服务器/工作站(支持2、4、8块GPU架构):普遍存在噪音大,无法放置于办公环境,必须放到专门的机房,维护成本高,另外数据存储带宽、延迟、容量也不尽如意。
(2)分布式集群架构:性能强大,但是开发成本太高(太贵),是大多数科研单位及个人无法承受。
(3)组装电脑:这类特点是价格便宜,但是在散热和功率方面依然是普通家用/游戏电脑标准,稳定性巨差。
(4)大部分GPU计算机(服务器/工作站):重点都放在GPU卡数量上,似乎只要配上足够GPU卡,就可以了。
然而,机器硬件配置还需要整体均衡,不同的学习框架更需要不同GPU卡去适配。
主流学习框架
主流框架加速效能
上图是不同的DL框架加速效能(NVIDIA GP100为例),不同的框架并不是GPU越多效能就越高。
深度学习计算密集,所以需要一个快速多核CPU,对吧?!
听说深度学习有很多显卡就可以了,一个高速CPU可能是种浪费?!
搭建一个深度学习系统时,最糟糕的事情之一就是把钱浪费在并非必需的硬件上。
一个高性能且经济的深度学习系统所需的硬件到底要如何配置?!
一. 深度学习计算特点与硬件配置分析:
深度学习计算特点
1.数据存储要求
在一些深度学习案例中,数据存储会成为明显的瓶颈。做深度学习首先需要一个好的存储系统,将历史资料保存起来。
主要任务:历史数据存储,如:文字、图像、声音、视频、数据库等。
数据容量:提供足够高的存储能力。
读写带宽:多硬盘并行读写架构提高数据读写带宽。
接口:高带宽,同时延迟低。
传统解决方式:专门的存储服务器,借助万兆端口访问。
缺点:带宽不高,对深度学习的数据读取过程时间长(延迟大,两台机器之间数据交换),成本还巨高。
UltraLA解决方案:
将并行存储直接通过PCIe接口,提供最大16个硬盘的并行读取,数据量大并行读取要求高,无论是总线还是硬盘并行带宽,都得到加大提升,满足海量数据密集I/O请求和计算需要。
2. CPU要求
如今深度学习CPU似乎不那么重要了,因为我们都在用GPU,为了能够明智地选择CPU我们首先需要理解CPU,以及它是如何与深度学习相关联的,CPU能为深度学习做什么呢?当你在GPU上跑深度网络时,CPU进行的计算很少,但是CPU仍然需要处理以下事情:
(1)数据从存储系统调入到内存的解压计算。
(2)GPU计算前的数据预处理。
(3)在代码中写入并读取变量,执行指令如函数调用,创建小批量数据,启动到GPU的数据传输。
(4)GPU多卡并行计算前,每个核负责一块卡的所需要的数据并行切分处理和控制。
(5)增值几个变量、评估几个布尔表达式、在GPU或在编程里面调用几个函数——所有这些会取决于CPU核的频率,此时唯有提升CPU频率。
传统解决方式:CPU规格很随意,核数和频率没有任何要求。
UltraLA解决方案:
CPU频率尽量高
CPU三级缓存尽量大(有必要科普一下CPU缓存)
“这是个经常被忽视的问题,但是通常来说,它在整个性能问题中是非常重要的一部分。CPU缓存是容量非常小的直接位于CPU芯片上的存储,物理位置非常接近CPU,能够用来进行高速计算和操作。CPU通常有缓存分级,从小型高速缓存(L1,L2)到低速大型缓存(L3,L4)。作为一个程序员,你可以将它想成一个哈希表,每条数据都是一个键值对(key-value-pair),可以高速的基于特定键进行查找:如果找到,就可以在缓存得值中进行快速读取和写入操作;如果没有找到(被称为缓存未命中),CPU需要等待RAM赶上,之后再从内存进行读值——一个非常缓慢的过程。重复的缓存未命中会导致性能的大幅下降。有效的CPU缓存方案与架构对于CPU性能来说非常关键。深度学习代码部分——如变量与函数调用会从缓存中直接受益。”
CPU核数:比GPU卡数量大(原则:1核对应1卡,核数要有至少2个冗余)。
3. GPU要求
如果你正在构建或升级你的深度学习系统,你最关心的应该也是GPU。GPU正是深度学习应用的核心要素——计算性能提升上,收获巨大。
主要任务:承担深度学习的数据建模计算、运行复杂算法。
传统架构:提供1~8块GPU。
UltraLA解决方案:
数据带宽:PCIe8x 3.0以上。
数据容量:显存大小很关键。
深度学习框架匹配:CPU核-GPU卡 1对1。
GPU卡加速:多卡提升并行处理效率。
4.内存要求
至少要和你的GPU显存存大小相同的内存。当然你也能用更小的内存工作,但是,你或许需要一步步转移数据。总而言之,如果钱够,而且需要做很多预处理,就不必在内存瓶颈上兜转,浪费时间。
主要任务:存放预处理的数据,待GPU读取处理,中间结果存放。
UltraLA解决方案:
数据带宽最大化:单Xeon E5v4 4通道内存,双XeonE5v4 8通道内存,内存带宽最大化。
内存容量合理化:大于GPU总显存。
说了那么多,到底该如何配置深度学习工作站,下面是干货来袭~
二. 深度学习工作站介绍与配置推荐
1. UltraLABGX370i-科研型
UltraLAB GX370i-科研型
硬件架构:4核4.7GHz~5.0GHz+4块GPU+64GB内存+4块硬盘(最大)
机器特点:高性价比,最快预处理和GPU超算架构
数据规模:小规模
2. UltraLABGX490i-高效型
硬件架构:配置10核4.5GHz+4块GPU+128GB+4块硬盘(最大)
机器特点:较GX360i,CPU核数和内存容量提升
数据规模:中小规模
UltraLAB GX490i基准配置
3. UltraLABGX490M-高性能型
硬件架构:配置6核4.5GHz/8核4.3GHz/10核4.3GHz+最大7块GPU+256GB+20盘位并行存储
机器特点:GPU数量支持到7块,支持海量数据并行存储
数据规模:中大规模
4. UltraLABGX620M-超级型
UltraLAB GX620M
硬件架构:双Xeon可扩展处理器(最大56核,最高3.8GHz)+最大9块GPU+20盘位并行存
机器特点:目前最强大的CPU+GPU异构计算
数据规模:建模与仿真计算、高性能科学计算、机器/深度学习
UltraLAB GX620M基准配置
UltraLAB深度学习工作站特点:
(1)种类丰富: GX370i(1C4G), GX490i(1C4G) --科研型,GX490M(1C7G)、GX620M(2C9G)--超级型。
(2)性能特点:超高频+多GPU+海量高速存储+静音级=最完美强大DL硬件平台。
(3)应用平台:完美支持TensorFlow,Caffe,Torch,DIGITS,
2. 求一款服务器温度检测软件,要求带预警机制的。
nagios可以调用openipmi的数据来发告警,你这两个可以结合起来用。
3. HP服务器 如何读CPU温度
可以找到HP随机引导光盘 里面有管理软件。可以查看到!一般用引导光盘装系统都会自动装上!
叫:HP System Management Homepage HP Insight Management
或者使用ILO2来查看。(可能复杂一些。开机按F8配置IP 接到服务器后面的ILO2接口 用户和密码在服务器前面小标签上!)
4. 如何测试电脑温度
方法一
1、开机的时候进入BIOS,然后进入“PC
Health
Status”选项。
2、进入之后就能看到“CPU
Temperature”,“CPU
Temperature”就是表示CPU温度。
方法二
1、下载安装鲁大师。
2、完成后,自动检测就会看到。
5. 如何查看服务器内部温度
你好
这个要看你使用的哪种服务器
品牌的服务器,如ibm、hp、dell、lenovo都有服务器管理软件,服务器硬件和软件的状态都可以看。
希望能帮助你。
6. 怎么测试cpu温度
如何查看CPU温度?
夏天来了,使用电脑的朋友都知道,炎夏电脑很容易发热。而电脑CPU发热不仅严重影响工作,也会对电脑带来致命的伤害。
下面,我们就来看看CPU降温消暑小技巧。
查看CPU温度
1.Bios里查看CPU温度。每块主板都有温度传感器,它时刻记录着CPU和主板的温度,在电脑开机自检时,CPU的温度和风扇的转速就会显示出来,我们可以按DEL键进入Bios查看PC Health信息,CPU温度一目了然。
2.软件查看CPU温度。查看CPU温度的软件很多,例如鲁大师。
CPU温度过高原因
1.CPU风扇散热不行。CPU风扇与CPU接触不完全,CPU风扇转速过低,风扇质量不过关,这都是造成CPU温度过高的原因。
2.系统使用CPU占用率100%。系统垃圾过多,开启进程或程序过多,中毒,这些情况都能导致CPU占用100%,从而使得CPU满载运作,温度过高。
3.CPU超频。CPU频率高了,自然发热量就大了,而普通的CPU风扇应付不来,导致CPU高温不下。
CPU温度过高解决办法
1.检查CPU风扇是否正确安装,在Bios里将风扇转速设为100%。具体操作因主板不同而不同,请参见主板说明书。
2.优化系统,查杀病毒,关闭不必要的启动项,升级内存。
3.超频的话应该换一个质量好点的风扇,有能力的可以购置水冷系统,如果对电脑性能要求不是太高的话,推荐恢复CPU默认频率。
7. 怎么测试cpu温度
以下用windows7系统电脑中的电脑管家软件为例,给大家演示一下。
1、首先点击电脑桌面中的电脑管家。
8. 怎么测试CPU的温度啊
我介绍详细一点吧:
CPU的正常温度
保证在温升30度的范围内一般是稳定的。也就是说,cpu的耐收温度为65度,按夏天最高35度来计算,则允许cpu温升为30度。按此类推,如果你的环境温度现在是20度,cpu最好就不要超过50度。温度当然是越低越好。不管你超频到什么程度,都不要使你的cpu高过环境温度30度以上。
现在要补充说明几点:
1. 温度和电压的问题。
温度提高是由于U的发热量大于散热器的排热量,一旦发热量与散热量趋于平衡,温度就不再升高了。发热量由U的功率决定,而功率又和电压成正比,因此要控制好温度就要控制好CPU的核心电压。不过说起来容易,电压如果过低又会造成不稳定,在超频幅度大的时候这对矛盾尤其明显。很多时候CPU温度根本没有达到临界值系统就蓝屏重起了,这时影响系统稳定性的罪魁就不是温度而是电压了。所以如何设置好电压在极限超频时是很重要的,设高了,散热器挺不住,设低了,U挺不住。
2. 各种主板的测温方式不尽相同,甚至同一个品牌、型号的主板,由于测温探头靠近CPU的距离差异,也会导致测出的温度相差很大。因此,笼统的说多少多少温度安全是不科学的。我认为在夏天较高室温条件下自己跑一跑super Pi或3DMark,只要稳定通过就可以了,不必过分相信软件测试的温度数据。
3. 究竟什么叫稳定,这也一直是大家喜欢讨论的热点问题。
计算机是电子产品,各部件配合异常微妙,没有人能说我的电脑绝对稳定,稳定是相对的。在合理的范围内超频,可以抵御大多数微小的不稳定因素可能带来的灾难性后果;在硬件的极限边缘超频,一个极细小的电流波动都有可能带来一连串的后继反应,最终可能就把你的屏幕变蓝了或变黑了:)具体量化到多少频率才是稳定的这个问题只有针对具体的情况了,而且也没有任何公式可以套用,只能凭借经验和亲身实践。因此这里再次提醒一些问“我的电脑可以超频到多少”的朋友,还是自己按照科学的超频步骤试一下吧!
一般进BIOS里面就可以知道.
给你推荐几个CPU控温软件,你就可以了解温度的变化了
一、Waterfall pro
Waterfall Pro(下载地址:新浪下载中心)是一款老牌的电脑制冷软件,体积小、功能强大,可以有效控制CPU温度的上升,优化CPU速度,监视CPU占用率和电源消费量。
二、CPUIdle
CpuIdle(下载地址:新浪下载中心)能够显着降低CPU运行时的温度,延长其使用寿命,同时还能降低CPU的功耗。与其它节能软件不同的是,即使是在超负荷工作的情况下,CpuIdle仍然能够发挥明显的效果。
三、SoftCooler II
SoftCooler(下载地址:新浪下载中心)是一款绿色芯片降温软件,具有占用系统资源和内存空间少的优点,无须进行任何设置,解压后就可直接使用。
四、VCool
VCool(下载地址:新浪下载中心)是一款专门为AMD CPU“量身定做”的降温软件。而且是款绿色软件,使用非常简单,占用系统资源少,针对AMD CPU的降温效果还不错。
五、CPU降温圣手
CPU降温圣手(下载地址:新浪下载中心)是一款体积小巧的CPU降温软件,系统内核处理采用汇编技术,直接对CPU单元进行优化,适合所有型号的CPU产品,对CPU起到良好的优化和保护作用。
9. 怎么测cpu温度
如何检测CPU的温度?
启动时,按F8进入BIOS,然后会看见有一项 CPU HEALTH 进入后就可以看CPU的温度了
这个挺好用的
SpeedFan (监控CPU温度风扇等)v4.27 修正汉化版
SpeedFan 是一个免费但功能强大的硬件监控软件,除了常见的CPU温度、硬盘温度及风扇转速监测外,它还具有调节风扇转速的功能(包括手动调节和自动调节)个人感觉其“图表”功能很实用,可以让我们通过不断变化的曲线直观地了解到CPU温度、硬盘温度及风扇转速的总体走势。用在超频时监测CPU温度及风扇转速变化情况很适合,当然也可以用它来监测一下如今很火的Prescott核心赛扬D处理器,看看其待机温度和满负荷运行温度到底如何。
———————————————分割线——————————————————
满意请采纳(⊙o⊙),以上是软硬谦施团队为你带来的回答。
如果有什么不懂的可以追问,以后有什么问题可以向我提问或者向我的团队提问。(*^__^*) 嘻嘻……
10. 如何检测CPU温度,有好的方法吗
随着天气慢慢变热,电脑的散热问题备受关注,特别是CPU的散热问题。很多用户都给自己的CPU配置了性能强大的风扇,但是苦于不知道如何测量CPU的温度,这就让很多用户不知道自己花掉的“银两”到底效果如何。在这里我给大家推荐一个可以测试CPU温度的小软件——Core Temp。它是通过CPU内核中的数字温度传感器来直接记录温度,因此准确率非常高,并且它能分别读取双核CPU中各内核的温度数据。
运行后会出现主界面,这里主要分为两个部分:“Processor Information”(处理器信息)一栏列出了CPU的相关信息,如编号、详细型号、核心步进和时钟频率等等。其中有一个重要参数是VID(Voltage ID),它表示CPU出厂后默认状态下的核心电压值,供主板识别使用。
而在“Temperature Reading”(温度读取)这部分,则详细列出了CPU核心的温度。如果你使用的是双核CPU,它还能够显示每个核心的温度状况。
此外,在菜单栏依次选择“Options→Setting”,可打开软件设置窗口。在这里不仅可以自定义软件读取温度的时间间隔,还能选择是否开启记录模式、核心过热是否警告等。
Core Temp支持Intel绝大部分系列的处理器,以及AMD K8系列处理器。可以说是应用面相当广泛的一个小软件。想要了解自己CPU的朋友,不妨去下载个Core Temp给自己的CPU做个小评测