kibana源码

发布时间: 2024-04-04 12:29:45

‘壹’ 大数据方面核心技术有哪些

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。

1、数据采集与预处理：

Flume NG实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据；

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，提供数据同步服务。

2、数据存储：

Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。

HBase，是一个分布式的、面向列的开源数据库，可以认为是hdfs的封装，本质是数据存储、NoSQL数据库。

3、数据清洗：MapRece作为Hadoop的查询引擎，用于大规模数据集的并行计算

4、数据查询分析：

Hive的核心工作就是把SQL语句翻译成MR程序，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能。

Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

5、数据可视化：对接一些BI平台，将分析得到的数据进行可视化，用于指导决策服务。

‘贰’ 安全开发你必须使用的28个DevSecOps工具

将安全融入开发过程，更早捕获并修复应用漏洞，你需要这五类共28款DevSecOps工具。

DevSecOps 是将安全集成到整个应用开发周期的过程，是从内到外强化应用，使其能够抵御各种潜在威胁的理想方式。因为很多公司企业不断开发应用以满足客户和商业合作伙伴的需求，DevSecOps的吸引力也与日俱增。

敏捷开发方法与DevOps操作帮助公司企业达成持续开发的目标。云原生应用架构也成芹尺为了DevSecOps运动的有力贡献者，推动采用公共云提供商、容器技术和容器平台为应用提供计算能力。DevSecOps将安全过程与工具集成进工作流并加以自动化，摆脱了传统方法按时间点进行的潜在干扰，是个无缝且持续的过程。

咨询公司 Data Bridge Market Research 称，鉴于网络安全威胁数量与危害性的持续上升，全球DevSecOps市场预计将从2018年的14.7亿美元增长至2026年的136.3亿美元。

市场繁荣之下，DevSecOps工具必将呈现百花齐放百家争鸣的局面。下面就按核心门类为您呈上多款优秀DevSecOps工具。

开发应用的时候很容易忽略掉安全漏洞。下面的工具为开发人员提供了潜在安全异常及缺陷的警报功能，可供开发人员及时调查并修复这些漏洞，不至于走得太远回不了头。有些工具专用于警报功能，比如开源的Alerta 。其他工具则兼具测试等别的功能，比如 Contrast Assess。

1. Alerta

(https://alerta.io/)

该开源工具可将多个来源的信息整合去重，提供快速可视化功能。Alerta与Prometheus、Riemann、Nagios、Cloudwatch及其他监视/管理服务集成，开发人员可通过API按需定制Alerta。

2. Contrast Assess

(https://www.contrastsecurity.com/interactive-application-security-testing-iast)

作为一款互动应用安全测试(IAST)工具，Contrast Assess 与用户应用集成，在后台持续监视代码，并在发现安全漏洞时发出警报。据称即便是非安全开发人员也可使用 Contrast Assess 自行识别并修复漏洞。

3. Contrast Protect

(https://www.contrastsecurity.com/runtime-application-self-protection-rasp)

该运行时应用自保护(RASP)工具采用了 Contrast Assess 同款嵌入式代理。Contrast Protect 在生产环境中查找漏洞利用程序和未知威胁，并将结果提交给安全信息及事件管理(SIEM)控制台、防火墙或其他安全工具。

4. ElastAlert

(https://elastalert.readthedocs.io/en/latest/)

ElastAlert提供近实时接收警报的框架，可接收来自Elasticsearch数据的安全异常、流量激增及其他模式。ElastAlert查询Elasticsearch并根据一系列规则比较这些数据。一旦出现匹配，ElastAlert便发出警报并随附建议动作。

大多数DevSecOps工具都提供一定程度的自动化。此类工具自动扫描、发现并修复安全缺陷，只是搜首饥自动化程度各有不同，从条件式事件驱动的自动化到运用深度学习技术的自动化都有。

1. CodeAI

(http://www.qbitlogic.com/codeai/)

旨世返在通过深度学习技术自动查找并修复源代码中的安全漏洞，号称可为开发人员提供可供参考的解决方案列表，而不仅仅是安全问题列表。其供应商QbitLogic宣称，已为CodeAI馈送了数百万个现实世界漏洞修复样本供训练。

2. Parasoft tool suite

(https://www.parasoft.com/)

Parasoft提供包括应用开发安全测试在内的多种自动化工具：

1）Parasoft C/C++test

(https://www.parasoft.com/procts/ctest)

用于开发过程早期缺陷识别；

2）Parasoft Insure++

(https://www.parasoft.com/procts/insure)

可以查找不规范编程及内存访问错误；

3）Parasoft Jtest

(https://www.parasoft.com/procts/jtest)

用于java软件开发测试；

4) Parasoft dotTEST

(https://www.parasoft.com/procts/jtest)

以深度静态分析和高级覆盖作为 Visual Studio 工具的补充。

3. Red Hat Ansible Automation

(https://www.redhat.com/en/technologies/management/ansible)

该工具包含三个模块——Ansible Tower、Ansible Engine 和 Red Hat Ansible Network Automation，可作为无代理IT自动化技术单独或联合使用。尽管不是专门的安全工具，Ansible Automation 却可供用户定义规则以确定自身软件开发项目中哪些部分是安全的。

4. StackStorm

(https://stackstorm.com)

该开源工具号称“可进行条件式运营”，其事件驱动的自动化能在检测到安全漏洞时提供脚本化的修复与响应，并附有持续部署、ChatOps优化等功能。

5. Veracode

(https://www.veracode.com/devsecops)

该公司提供DevSecOps环境中广泛使用的一系列自动化安全工具，包括在代码编写时即时自动扫描的Greenlight；在沙箱中扫描代码漏洞的 Developer Sandbox；识别漏洞组件的 Software Composition Analysis (SCA)；以及识别应用缺陷的 Static Analysis。

专用DevSecOps仪表板工具可使用户在同一图形界面中查看并共享从开发伊始到运营过程中的安全信息。有些DevSecOps应用，比如ThreatModeler和Parasoft已自带仪表板。

1. Grafana

(https://grafana.com/)

该开源分析平台允许用户创建自定义仪表板，聚合所有相关数据以可视化及查询安全数据。如果不想自行构建，还可以在其网站上选用社区构建的仪表板。

2. Kibana

(https://www.elastic.co/procts/kibana)

如果你使用Elasticsearch，该开源工具可在统一图形界面中集成成千上万的日志条目，包括运营数据、时间序列分析、应用监视等等。

威胁建模DevSecOps工具用以在复杂的攻击界面中识别、预测并定义威胁，以便用户可以做出主动安全决策。有些工具可根据用户提供的系统及应用信息自动构建威胁模型，并提供可视化界面以帮助安全及非安全人员探索威胁及其潜在影响。

1. IriusRisk

(https://continuumsecurity.net/threat-modeling-tool/)

出自 Continuum Security 的解决方案，既可云部署，也可现场部署，能以基于问卷的界面自动化风险及需求分析，并设计出威胁模型和技术性安全要求。IriusRisk还可帮助用户管理代码构建及安全测试阶段。

2. ThreatModeler

(https://threatmodeler.com/)

该自动化威胁建模系统有两个版本：AppSec版和云版。在提供了用户应用或系统的功能性信息后，ThreatModeler会基于更新的威胁情报自动就整个攻击界面进行数据分析和潜在威胁识别。

3. OWASP Threat Dragon

(https://www.owasp.org/index.php/OWASP_Threat_Dragon)

一款基于Web的开源工具，提供系统图解和用于自动化威胁建模与缓解的规则引擎。Threat Dragon 承诺可与其他软件开发生命周期(SDLC)工具无缝集成，且界面易于使用。

在开发过程中测试应用以找出潜在漏洞是DevSecOps的关键部分，能够事先发现安全漏洞，避免漏洞被黑客利用。尽管其他工具往往包含了测试功能，比如Parasoft出品的那些，下列工具仍然在应用安全测试上表现强劲。

1. BDD-Security

(https://continuumsecurity.net/bdd-security/)

该出自 Continuum Security 的开源框架可使安全人员在敏捷开发过程中测试行为驱动开发(BDD)语言编写的功能及非功能性安全场景。此BDD框架旨在使安全功能独立于应用特定的导航逻辑，让同样的安全要求能够更容易地应用到多个应用程序上。

2. Checkmarx CxSAST

(https://www.checkmarx.com/procts/static-application-security-testing/)

可对25种编程及脚本语言进行未编译/未构建源代码扫描的静态应用安全测试(SAST)工具，能在SDLC早期发现成百上千种安全漏洞。CxSAST兼容所有集成开发环境(IDE)，是Checkmarx软件暴露平台的一部分——该平台可在DevOps所有阶段植入安全。Checkmarx的交互式应用安全测试(IAST)工具可检测运行中应用的安全漏洞。

3. Chef InSpec

(https://github.com/inspec/inspec)

整个开发过程中的每一阶段都可以运用该开源工具自动化安全测试以确保针对传统服务器及容器和云API的合规、安全及其他政策要求。

4. Fortify

(https://www.microfocus.com/en-us/solutions/application-security)

Micro Focus 出品，提供端到端应用安全，可供进行覆盖整个软件开发生命周期的现场及按需测试。Fortify on Demand 是 Micro Focus 的应用安全即服务产品，提供静态、动态和移动应用安全测试，以及生产环境中Web应用的持续监视。

5. Gauntlt

(http://gauntlt.org/)

流行测试框架，旨在推动易操作的安全测试及安全、开发和运营团队间的沟通。GauntIt便于产生攻击测试用例，且能方便地钩入现有工具及进程。

6. Synopsys suite

(https://www.synopsys.com/)

Synopsys提供多个应用安全测试工具，包括：

1）SAST工具Coverity

(https://www.synopsys.com/software-integrity/security-testing/static-analysis-sast.html)

自动化测试且融入持续集成/持续交付(CI/CD)管道；

2）SCA工具 Black Duck

(https://www.synopsys.com/software-integrity/security-testing/software-composition-analysis.html)

采用容器及应用中的开源和第三方代码检测并管理安全；

3）SeekerIAST

(https://www.synopsys.com/software-integrity/security-testing/interactive-application-security-testing.html)

识别可暴露敏感数据的运行时安全漏洞；

以及一系列用于应用安全测试的托管服务。

以下DevSecOps工具同样含有上述工具提供的功能，但或多或少略有不同。

1. Aqua Security

(https://www.aquasec.com/)

在整个CI/CD管道和运行时环境中管理端到端安全，可用于所有平台和云环境的容器及云原生应用。

2. Dome9 Arc

(https://www.checkpoint.com/solutions/devops-security/)

被 Check Point 收购，提供自动化测试及安全实施，使开发人员能够将安全及合规融入公共云应用的构建、部署及运营。

3. GitLab

(https://about.gitlab.com/)

该工具可将DevSecOps架构融入CI/CD过程，在提交时测试每一块代码，使开发人员能够在编程期间缓解安全漏洞，并提供涵盖所有漏洞的仪表板。

4. Red Hat OpenShift

(https://www.redhat.com/en/technologies/cloud-computing/openshift)

为基于容器的应用提供内置安全，比如基于角色的访问控制、以安全增强的Linux(SELinux)实现隔离，以及贯穿整个容器构建过程的核查。

5. RedLock

(https://www.paloaltonetworks.com/procts/secure-the-cloud/redlock/cloud-security-governance)(前身为Evident.io)

Palo Alto Networks 出品，适用于部署阶段，帮助开发人员快速发现并缓解资源配置、网络架构及用户活动中的安全威胁，尤其是在亚马逊S3存储桶和弹性块存储(EBS)卷上。

6. SD Elements

(https://www.securitycompass.com/sdelements/)

出品自 Security Compass 的自动化平台，旨在收集客户软件信息，发现威胁及对策，突出相关安全控制措施以帮助公司企业实现其安全和合规目标。

7. WhiteHat Sentinel 应用安全平台

(https://www.whitehatsec.com/procts/solutions/devsecops/)

该解决方案提供贯穿整个SDLC的应用安全，适用于需将安全集成进工具中的敏捷开发团队，以及需持续测试以保证生产环境应用安全的安全团队。

8. WhiteSource

(https://www.whitesourcesoftware.com/)

用于解决开源漏洞，可集成进用户的生成过程，无论用户采用什么编程语言、生成工具或开发环境。WhiteSource使用经常更新的开源代码数据库持续检查开源组件的安全及授权。

‘叁’ GitHub上面有哪些经典的java框架源码

Bazel：来自Google的构建工具，可以快速、可靠地构建代码。官网
Gradle：使用Groovy（非XML）进行增量构建，可以很好地与Maven依赖管理配合工作。官网
Buck：Facebook构建工具。官网

字节码操作

编程方式操作字节码的开发库。

ASM：通用底层字节码操作和分析开发库。官网
Byte Buddy：使用流式API进一步简化字节码生成。官网
Byteman：在运行时通过DSL（规则）操作字节码进行测试和故障排除。官网
Javassist：一个简化字节码编辑尝试。官网

集群管理

在集群内动态管理应用程序的框架。

Apache Aurora：Apache Aurora是一个Mesos框架，用于长时间运行服务和定时任务（cron job）。官网
Singularity：Singularity是一个Mesos框架，方便部署和操作。它支持Web Service、后台运行、调度作业和一次性任务。官网

代码分析

测量代码指标和质量工具。

Checkstyle：代码编写规范和标准静态分析工具。官网
Error Prone：将常见编程错误作为运行时错误报告。官网
FindBugs：通过字节码静态分析查找隐藏bug。官网
jQAssistant：使用基于Neo4J查询语言进行代码静态分析。官网
PMD：对源代码分析查找不良的编程习惯。官网
SonarQube：通过插件集成其它分析组件，对过去一段时间内的数据进行统计。官网

编译器生成工具

用来创建解析器、解释器或编译器的框架。

ANTLR：复杂的全功能自顶向下解析框架。官网
JavaCC：JavaCC是更加专门的轻量级工具，易于上手且支持语法超前预测。官网

外部配置工具

支持外部配置的开发库。

config：针对JVM语言的配置库。官网
owner：减少冗余配置属性。官网

约束满足问题求解程序

帮助解决约束满足问题的开发库。

Choco：可直接使用的约束满足问题求解程序，使用了约束规划技术。官网
JaCoP：为FlatZinc语言提供了一个接口，可以执行MiniZinc模型。官网
OptaPlanner：企业规划与资源调度优化求解程序。官网
Sat4J：逻辑代数与优化问题最先进的求解程序。官网

持续集成

Bamboo：Atlassian解决方案，可以很好地集成Atlassian的其他产品。可以选择开源许可，也可以购买商业版。官网
CircleCI：提供托管服务，可以免费试用。官网
Codeship：提供托管服务，提供有限的免费模式。官网
fabric8：容器集成平台。官网
Go：ThoughtWork开源解决方案。官网
Jenkins：支持基于服务器的部署服务。官网
TeamCity：JetBrain的持续集成解决方案，有免费版。官网
Travis：通常用作开源项目的托管服务。官网
Buildkite: 持续集成工具，用简单的脚本就能设置pipeline，而且能快速构建，可以免费试用。官网

CSV解析

简化CSV数据读写的框架与开发库

uniVocity-parsers：速度最快功能最全的CSV开发库之一，同时支持TSV与固定宽度记录的读写。官网

数据库

简化数据库交互的相关工具。

Apache Phoenix：HBase针对低延时应用程序的高性能关系数据库层。官网
Crate：实现了数据同步、分片、缩放、复制的分布式数据存储。除此之外还可以使用基于SQL的语法跨集群查询。官网
Flyway：简单的数据库迁移工具。官网
H2：小型SQL数据库，以可以作为内存数据库使用着称。官网
HikariCP：高性能JDBC连接工具。官网
JDBI：便捷的JDBC抽象。官网
Protobuf：Google数据交换格式。官网
SBE：简单二进制编码，是最快速的消息格式之一。官网
Wire：整洁轻量级协议缓存。官网

帮实现依赖翻转范式的开发库。官网

Apache DeltaSpike：CDI扩展框架。官网
Dagger2：编译时注入框架，不需要使用反射。官网
Guice：可以匹敌Dagger的轻量级注入框架。官网
HK2：轻量级动态依赖注入框架。官网

开发流程增强工具

从最基本的层面增强开发流程。

ADT4J：针对代数数据类型的JSR-269代码生成器。官网
AspectJ：面向切面编程（AOP）的无缝扩展。官网
Auto：源代码生成器集合。官网
DCEVM：通过修改JVM在运行时支持对已加载的类进行无限次重定义。官网
HotswapAgent：支持无限次重定义运行时类与资源。官网
Immutables：类似Scala的条件类。官网
JHipster：基于Spring Boot与AngularJS应用程序的Yeoman源代码生成器。官网
JRebel：无需重新部署，可以即时重新加载代码与配置的商业软件。官网
Lombok：减少冗余的代码生成器。官网
Spring Loaded：类重载代理。官网
vert.x：多语言事件驱动应用框架。官网

分布式应用

用来编写分布式容错应用的开发库和框架。

Akka：用来编写分布式容错并发事件驱动应用程序的工具和运行时。官网
Apache Storm：实时计算系统。官网
Apache ZooKeeper：针对大型分布式系统的协调服务，支持分布式配置、同步和名称注册。官网
Hazelcast：高可扩展内存数据网格。官网
Hystrix：提供延迟和容错。官网
JGroups：提供可靠的消息传递和集群创建的工具。官网
Orbit：支持虚拟角色（Actor），在传统角色的基础上增加了另外一层抽象。官网
Quasar：为JVM提供轻量级线程和角色。官网

分布式数据库

对应用程序而言，在分布式系统中的数据库看起来就像是只有一个数据源。

Apache Cassandra：列式数据库，可用性高且没有单点故障。官网
Apache HBase：针对大数据的Hadoop数据库。官网
Druid：实时和历史OLAP数据存储，在聚集查询和近似查询方面表现不俗。官网
Infinispan：针对缓存的高并发键值对数据存储。官网

发布

以本机格式发布应用程序的工具。

Bintray：发布二进制文件版本控制工具。可以于Maven或Gradle一起配合使用。提供开源免费版本和几种商业收费版本。官网
Central Repository：最大的二进制组件仓库，面向开源社区提供免费服务。Apache Maven默认使用Central官网Repository，也可以在所有其他构建工具中使用。
IzPack：为跨平台部署建立创作工具（Authoring Tool）。官网
JitPack：打包GitHub仓库的便捷工具。可根据需要构建Maven、Gradle项目，发布可立即使用的组件。官网
Launch4j：将JAR包装为轻量级本机Windows可执行程序。官网
Nexus：支持代理和缓存功能的二进制管理工具。官网
packr：将JAR、资源和JVM打包成Windows、Linux和Mac OS X本地发布文件。官网

文档处理工具

处理Office文档的开发库。

Apache POI：支持OOXML规范（XLSX、DOCX、PPTX）以及OLE2规范（XLS、DOC、PPT）。官网
documents4j：使用第三方转换器进行文档格式转换，转成类似MS Word这样的格式。官网
jOpenDocument：处理OpenDocument格式（由Sun公司提出基于XML的文档格式）。官网

函数式编程

函数式编程支持库。

Cyclops：支持一元（Monad）操作和流操作工具类、comprehension（List语法）、模式匹配、trampoline等特性。官网
Fugue：Guava的函数式编程扩展。官网
Functional Java：实现了多种基础和高级编程抽象，用来辅助面向组合开发（composition-oriented development）。官网
Javaslang：一个函数式组件库，提供持久化数据类型和函数式控制结构。官网
jOOλ：旨在填补Java 8 lambda差距的扩展，提供了众多缺失的类型和一组丰富的顺序流API。官网

游戏开发

游戏开发框架。

jMonkeyEngine：现代3D游戏开发引擎。官网
libGDX：全面的跨平台高级框架。官网
LWJGL：对OpenGL/CL/AL等技术进行抽象的健壮框架。官网

GUI

现代图形化用户界面开发库。

JavaFX：Swing的后继者。官网
Scene Builder：开发JavaFX应用的可视化布局工具。官网

高性能计算

涵盖了从集合到特定开发库的高性能计算相关工具。

Agrona：高性能应用中常见的数据结构和工具方法。官网
Disruptor：线程间消息传递开发库。官网
fastutil：快速紧凑的特定类型集合（Collection）。官网
GS Collections：受Smalltalk启发的集合框架。官网
HPPC：基础类型集合。官网
Javolution：实时和嵌入式系统的开发库。官网
JCTools：JDK中缺失的并发工具。官网
Koloboke：Hash set和hash map。官网
Trove：基础类型集合。官网
High-scale-bli:Cliff Click 个人开发的高性能并发库官网

IDE

简化开发的集成开发环境。

Eclipse：老牌开源项目，支持多种插件和编程语言。官网
IntelliJ IDEA：支持众多JVM语言，是安卓开发者好的选择。商业版主要针对企业客户。官网
NetBeans：为多种技术提供集成化支持，包括Java SE、Java EE、数据库访问、HTML5
Imgscalr：纯Java 2D实现，简单、高效、支持硬件加速的图像缩放开发库。官网
Picasso：安卓图片下载和图片缓存开发库。官网
Thumbnailator：Thumbnailator是一个高质量Java缩略图开发库。官网
ZXing：支持多种格式的一维、二维条形码图片处理开发库。官网
im4java: 基于ImageMagick或GraphicsMagick命令行的图片处理开发库，基本上ImageMagick能够支持的图片格式和处理方式都能够处理。官网
Apache Batik：在Java应用中程序以SVG格式显示、生成及处理图像的工具集，包括SVG解析器、SVG生成器、SVG DOM等模块，可以集成使用也可以单独使用，还可以扩展自定义的SVG标签。官网

JSON

简化JSON处理的开发库。

Genson：强大且易于使用的Java到JSON转换开发库。官网
Gson：谷歌官方推出的JSON处理库，支持在对象与JSON之间双向序列化，性能良好且可以实时调用。官网
Jackson：与GSON类似，在频繁使用时性能更佳。官网
LoganSquare：基于Jackson流式API，提供对JSON解析和序列化。比GSON与Jackson组合方式效果更好。官网
Fastjson：一个Java语言编写的高性能功能完善的JSON库。官网
Kyro：快速、高效、自动化的Java对象序列化和克隆库。官网

JVM与JDK

目前的JVM和JDK实现。

JDK 9：JDK 9的早期访问版本。官网
OpenJDK：JDK开源实现。官网

基于JVM的语言

除Java外，可以用来编写JVM应用程序的编程语言。

Scala：融合了面向对象和函数式编程思想的静态类型编程语言。官网
Groovy：类型可选（Optionally typed）的动态语言，支持静态类型和静态编译。目前是一个Apache孵化器项目。官网
Clojure：可看做现代版Lisp的动态类型语言。官网
Ceylon：RedHat开发的面向对象静态类型编程语言。官网
Kotlin：JetBrain针对JVM、安卓和浏览器提供的静态类型编程语言。官网
Xtend：一种静态编程语言，能够将其代码转换为简洁高效的Java代码，并基于JVM运行。官网

日志

记录应用程序行为日志的开发库。

Apache Log4j 2：使用强大的插件和配置架构进行完全重写。官网
kibana：分析及可视化日志文件。官网
Logback：强健的日期开发库，通过Groovy提供很多有趣的选项。官网
logstash：日志文件管理工具。官网
Metrics：通过JMX或HTTP发布参数，并且支持存储到数据库。官网
SLF4J：日志抽象层，需要与具体的实现配合使用。官网

机器学习

提供具体统计算法的工具。其算法可从数据中学习。

Apache Flink：快速、可靠的大规模数据处理引擎。官网
Apache Hadoop：在商用硬件集群上用来进行大规模数据存储的开源软件框架。官网
Apache Mahout：专注协同过滤、聚类和分类的可扩展算法。官网
Apache Spark：开源数据分析集群计算框架。官网
DeepDive：从非结构化数据建立结构化信息并集成到已有数据库的工具。官网
Deeplearning4j：分布式多线程深度学习开发库。官网
H2O：用作大数据统计的分析引擎。官网
Weka：用作数据挖掘的算法集合，包括从预处理到可视化的各个层次。官网
QuickML：高效机器学习库。官网、GitHub

消息传递

在客户端之间进行消息传递，确保协议独立性的工具。

Aeron：高效可扩展的单播、多播消息传递工具。官网
Apache ActiveMQ：实现JMS的开源消息代理（broker），可将同步通讯转为异步通讯。官网
Apache Camel：通过企业级整合模式（Enterprise Integration Pattern EIP）将不同的消息传输API整合在一起。官网
Apache Kafka：高吞吐量分布式消息系统。官网
Hermes：快速、可靠的消息代理（Broker），基于Kafka构建。官网
JBoss HornetQ：清晰、准确、模块化，可以方便嵌入的消息工具。官网
JeroMQ：ZeroMQ的纯Java实现。官网
Smack：跨平台XMPP客户端函数库。官网
Openfire：是开源的、基于XMPP、采用Java编程语言开发的实时协作服务器。 Openfire安装和使用都非常简单，并可利用Web界面进行管理。官网GitHub
Spark：是一个开源，跨平台IM客户端。它的特性支持集组聊天，电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。官网GitHub
Tigase：是一个轻量级的可伸缩的 Jabber/XMPP 服务器。无需其他第三方库支持，可以处理非常高的复杂和大量的用户数，可以根据需要进行水平扩展。官网

杂项

未分类其它资源。

Design Patterns：实现并解释了最常见的设计模式。官网
Jimfs：内存文件系统。官网
Lanterna：类似curses的简单console文本GUI函数库。官网
LightAdmin：可插入式CRUD UI函数库，可用来快速应用开发。官网
OpenRefine：用来处理混乱数据的工具，包括清理、转换、使用Web Service进行扩展并将其关联到数据库。官网
RoboVM：Java编写原生iOS应用。官网
Quartz：强大的任务调度库.官网

应用监控工具

监控生产环境中应用程序的工具。

AppDynamics：性能监测商业工具。官网
JavaMelody：性能监测和分析工具。官网
Kamon：Kamon用来监测在JVM上运行的应用程序。官网
New Relic：性能监测商业工具。官网
SPM：支持对JVM应用程序进行分布式事务追踪的性能监测商业工具。官网
Takipi：产品运行时错误监测及调试商业工具。官网

原生开发库

用来进行特定平台开发的原生开发库。

JNA：不使用JNI就可以使用原生开发库。此外，还为常见系统函数提供了接口。官网

自然语言处理

用来专门处理文本的函数库。

Apache OpenNLP：处理类似分词等常见任务的工具。官网
CoreNLP：斯坦佛CoreNLP提供了一组基础工具，可以处理类似标签、实体名识别和情感分析这样的任务。官网
LingPipe：一组可以处理各种任务的工具集，支持POS标签、情感分析等。官网
Mallet：统计学自然语言处理、文档分类、聚类、主题建模等。官网

网络

网络编程函数库。

Async Http Client：异步HTTP和WebSocket客户端函数库。官网
Grizzly：NIO框架，在Glassfish中作为网络层使用。官网
Netty：构建高性能网络应用程序开发框架。官网
OkHttp：一个Android和Java应用的HTTP+SPDY客户端。官网
Undertow：基于NIO实现了阻塞和非阻塞API的Web服务器，在WildFly中作为网络层使用。官网

ORM

处理对象持久化的API。

Ebean：支持快速数据访问和编码的ORM框架。官网
EclipseLink：支持许多持久化标准，JPA、JAXB、JCA和SDO。官网
Hibernate：广泛使用、强健的持久化框架。Hibernate的技术社区非常活跃。官网
MyBatis：带有存储过程或者SQL语句的耦合对象（Couples object）。官网
OrmLite：轻量级开发包，免除了其它ORM产品中的复杂性和开销。官网
Nutz：另一个SSH。官网，Github
JFinal：JAVA WEB + ORM框架。官网，Github

PDF

用来帮助创建PDF文件的资源。

Apache FOP：从XSL-FO创建PDF。官网
Apache PDFBox：用来创建和操作PDF的工具集。官网
DynamicReports：JasperReports的精简版。官网
flyingsaucer：XML/XHTML和CSS 2.1渲染器。官网
iText：一个易于使用的PDF函数库，用来编程创建PDF文件。注意，用于商业用途时需要许可证。官网
JasperReports：一个复杂的报表引擎。官网

性能分析

性能分析、性能剖析及基准测试工具。

jHiccup：提供平台中JVM暂停的日志和记录。官网
JMH：JVM基准测试工具。官网
JProfiler：商业分析器。官网
LatencyUtils：测量和报告延迟的工具。官网
VisualVM：对运行中的应用程序信息提供了可视化界面。官网
YourKit Java Profiler：商业分析器。官网

响应式开发库

用来开发响应式应用程序的开发库。

Reactive Streams：异步流处理标准，支持非阻塞式反向压力（backpressure）。官网
Reactor：构建响应式快速数据（fast-data）应用程序的开发库。官网
RxJava：通过JVM可观察序列（observable sequence）构建异步和基于事件的程序。官网

REST框架

用来创建RESTful 服务的框架。

Dropwizard：偏向于自己使用的Web框架。用来构建Web应用程序，使用了Jetty、Jackson、Jersey和Metrics。官网
Feign：受Retrofit、JAXRS-2.0和WebSocket启发的HTTP客户端连接器（binder）。官网
Jersey：JAX-RS参考实现。官网
RESTEasy：经过JAX-RS规范完全认证的可移植实现。官网
RestExpress：一个Java类型安全的REST客户端。官网
RestX：基于注解处理和编译时源码生成的框架。官网
Retrofit：类型安全的REST客户端。官网
Spark：受到Sinatra启发的Java REST框架。官网
Swagger：Swagger是一个规范且完整的框架，提供描述、生产、消费和可视化RESTful Web Service。官网
Blade：国人开发的一个轻量级的MVC框架. 它拥有简洁的代码，优雅的设计。官网

科学计算与分析

用于科学计算和分析的函数库。

DataMelt：用于科学计算、数据分析及数据可视化的开发环境。官网
JGraphT：支持数学图论对象和算法的图形库。官网
JScience：用来进行科学测量和单位的一组类。官网

搜索引擎

文档索引引擎，用于搜索和分析。

Apache Solr：一个完全的企业搜索引擎。为高吞吐量通信进行了优化。官网
Elasticsearch：一个分布式、支持多租户（multitenant）全文本搜索引擎。提供了RESTful Web接口和无schema的JSON文档。官网
Apache Lucene：是一个开放源代码的全文检索引擎工具包，是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。官网

安全

用于处理安全、认证、授权或会话管理的函数库。

Apache Shiro：执行认证、授权、加密和会话管理。官网
Bouncy Castle，涵盖了从基础的帮助函数到PGP/SMIME操作。官网：多途加密开发库。支持JCA提供者（JCA provider)
Cryptomator：在云上进行客户端跨平台透明加密。官网
Keycloak：为浏览器应用和RESTful Web Service集成SSO和IDM。目前还处于beta版本，但是看起来非常有前途。官网
PicketLink：PicketLink是一个针对Java应用进行安全和身份认证管理的大型项目（Umbrella Project）。官网

序列化

用来高效处理序列化的函数库。

FlatBuffers：高效利用内存的序列化函数库，无需解包和解析即可高效访问序列化数据。官网
Kryo：快速、高效的对象图形序列化框架。官网
FST：提供兼容JDK的高性能对象图形序列化。官网
MessagePack：一种高效的二进制序列化格式。官网

应用服务器

用来部署应用程序的服务器。

Apache Tomcat：针对Servlet和JSP的应用服务器，健壮性好且适用性强。官网
Apache TomEE：Tomcat加Java EE。官网
Jetty：轻量级、小巧的应用服务器，通常会嵌入到项目中。官网
WebSphere Liberty：轻量级、模块化应用服务器，由IBM开发。官网
WildFly：之前被称作JBoss，由Red Hat开发。支持很多Java EE功能。官网

模板引擎

在模板中替换表达式的工具。

Apache Velocity：提供HTML页面模板、email模板和通用开源代码生成器模板。官网
FreeMarker：通用模板引擎，不需要任何重量级或自己使用的依赖关系。官网
Handlebars.java：使用Java编写的模板引擎，逻辑简单，支持语义扩展（semantic Mustache）。官网
Thymeleaf：旨在替换JSP，支持XML文件的工具。官网

测试

测试内容从对象到接口，涵盖性能测试和基准测试工具。

Apache JMeter：功能性测试和性能评测。官网
Arquillian：集成测试和功能行测试平台，集成Java EE容器。官网
AssertJ：支持流式断言提高测试的可读性。官网
Awaitility：用来同步异步操作的DSL。官网
Cucumber：BDD测试框架。官网
Gatling：设计为易于使用、可维护的和高性能负载测试工具。官网
Hamcrest：可用来灵活创建意图（intent）表达式的匹配器。官网
JMockit：用来模拟静态、final方法等。官网
JUnit：通用测试框架。官网
Mockito：在自动化单元测试中创建测试对象，为TDD或BDD提供支持。官网
PowerMock：支持模拟静态方法、构造函数、final类和方法、私有方法以及移除静态初始化器的模拟工具。官网
REST Assured：为REST/HTTP服务提供方便测试的Java DSL。官网
Selenide：为Selenium提供精准的周边API，用来编写稳定且可读的UI测试。官网
Selenium：为Web应用程序提供可移植软件测试框架。官网
Spock：JUnit-compatible framework featuring an expressive Groovy-derived specification language.官网兼容JUnit框架，支持衍生的Groovy范的语言。
TestNG：测试框架。官网
Truth：Google的断言和命题（proposition）框架。官网
Unitils：模块化测试函数库，支持单元测试和集成测试。官网
WireMock：Web Service测试桩（Stub）和模拟函数。官网

通用工具库

通用工具类函数库。

Apache Commons：提供各种用途的函数，比如配置、验证、集合、文件上传或XML处理等。官网
args4j：命令行参数解析器。官网
CRaSH：为运行进行提供CLI。官网
Gephi：可视化跨平台网络图形化操作程序。官网
Guava：集合、缓存、支持基本类型、并发函数库、通用注解、字符串处理、I/O等。官网
JADE：构建、调试多租户系统的框架和环境。官网
javatuples：正如名字表示的那样，提供tuple支持。尽管目前tuple的概念还有留有争议。官网
JCommander：命令行参数解析器。官网
Protégé：提供存在论（ontology）编辑器以及构建知识系统的框架。官网

网络爬虫

用于分析网站内容的函数库。

Apache Nutch：可用于生产环境的高度可扩展、可伸缩的网络爬虫。官网
Crawler4j：简单的轻量级网络爬虫。官网
JSoup：刮取、解析、操作和清理HTML。官网

Web框架

用于处理Web应用程序不同层次间通讯的框架。

Apache Tapestry：基于组件的框架，使用Java创建动态、强健的、高度可扩展的Web应用程序。官网
Apache Wicket：基于组件的Web应用框架，与Tapestry类似带有状态显示GUI。官网
Google Web Toolkit：一组Web开发工具集，包含在客户端将Java代码转为JavaScript的编译器、XML解析器、RCP官网API、JUnit集成、国际化支持和GUI控件。
Grails：Groovy框架，旨在提供一个高效开发环境，使用约定而非配置、没有XML并支持混入（mixin）。官网
Ninja：Java全栈Web开发框架。非常稳固、快速和高效。官网
Pippo：小型、高度模块化的类Sinatra框架。官网
Play：使用约定而非配置，支持代码热加载并在浏览器中显示错误。官网
PrimeFaces：JSF框架，提供免费和带支持的商业版本。包括若干前端组件。官网
Ratpack：一组Java开发函数库，用于构建快速、高效、可扩展且测试完备的HTTP应用程序。官网
Spring Boot：微框架，简化了Spring新程序的开发过程。官网
Spring：旨在简化Java EE的开发过程，提供依赖注入相关组件并支持面向切面编程。官网
Vaadin：基于GWT构建的事件驱动框架。使用服务端架构，客户端使用Ajax。官网
Blade：国人开发的一个轻量级的MVC框架. 它拥有简洁的代码，优雅的设计。官网

业务流程管理套件

流程驱动的软件系统构建。

jBPM：非常灵活的业务流程管理框架，致力于构建开发与业务分析人员之间的桥梁。官网
Activity：轻量级工作流和业务流程管理框架。官网github

资源

社区

‘肆’ 如何使用python爬取知乎数据并做简单分析

一、使用的技术栈：
爬虫：python27 +requests+json+bs4+time
分析工具： ELK套件
开发工具：pycharm
数据成果简单的可视化分析
1.性别分布
0 绿色代表的是男性 ^ . ^
1 代表的是女性
-1 性别不确定
可见知乎的用户男性颇多。
二、粉丝最多的top30
粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。
三、写文章最多的top30
四、爬虫架构
爬虫架构图如下：
说明：
选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。
抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。
解析该用户的个人信息，并存取到本地磁盘。
logstash取实时的获取本地磁盘的用户数据，并给elsticsearchkibana和elasticsearch配合，将数据转换成用户友好的可视化图形。
五、编码
爬取一个url:
解析内容：
存本地文件：
代码说明：
* 需要修改获取requests请求头的authorization。
* 需要修改你的文件存储路径。
源码下载：点击这里，记得star哦！https : // github . com/forezp/ZhihuSpiderMan六、如何获取authorization
打开chorme，打开https : // www. hu .com/，
登陆，首页随便找个用户，进入他的个人主页，F12(或鼠标右键，点检查)七、可改进的地方
可增加线程池，提高爬虫效率
存储url的时候我才用的set(),并且采用缓存策略，最多只存2000个url，防止内存不够，其实可以存在redis中。
存储爬取后的用户我说采取的是本地文件的方式，更好的方式应该是存在mongodb中。
对爬取的用户应该有一个信息的过滤，比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。
八、关于ELK套件
关于elk的套件安装就不讨论了，具体见官网就行了。网站：https : // www . elastic . co/另外logstash的配置文件如下：
从爬取的用户数据可分析的地方很多，比如地域、学历、年龄等等，我就不一一列举了。另外，我觉得爬虫是一件非常有意思的事情，在这个内容消费升级的年代，如何在广阔的互联网的数据海洋中挖掘有价值的数据，是一件值得思考和需不断践行的事情。

‘伍’ PB级大规模Elasticsearch集群运维与调优实践

某中型互联网公司的游戏业务，使用了腾讯云的Elasticsearch产品，采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps)，在服务客户的几个月中，踩了不少坑，经过数次优化与调整，把客户的ES集群调整的比较稳定，避免了在业务高峰时客户集群的读写异常，并且降低了客户的资金成本和使用成本。下面把服务客户过程中遇到的典型问题进行梳理，总结经验，避免再次踩坑。

解决方案架构师A: bellen, XX要上线一款新游戏冲卜，日志存储决定用ELK架构，他们决定在XX云和我们之间二选一，我们首先去他们公司和他们交流一下，争取拿下！

bellen: 好，随时有空！

。。。

和架构师一起前往该公司，跟负责底层组件的运维部门的负责人进行沟通。

XX公司运维老大：不要讲你们的PPT了，先告诉我你们能给我们带来什么！

bellen: 。。。呃，我们有很多优势。。。比如灵活地扩容缩容集群，还可以一键平滑升级集群版本，并且提供有跨机房容灾的集群从而实现高可用。。

XX公司运维老大：你说的这些别的厂商也有，我就问一个问题，我们现在要存储一年的游戏日志，不能删除数据，每天就按10TB的数据量算，一年也得有个3PB多的数据，这么大的数量，都放在SSD云盘上，我们的成本太高了，你们有什么方案既能够满足我们存储这么大数据量的需求，同时能够降低我们的成本吗？

bellen: 我们本身提供的有冷热模式的集群，热节点采用SSD云硬盘，冷节点采用SATA盘，采用ES自带的ILM索引生命周期管理功能定期把较老的索引从热节点迁移到冷节点上，这样从整体上可以降低成本。另外一方面，也可以定期把更老的索引通过snapshot快照备份到COS对象存储野模中，然后删除索引，这样成本就更低了。

XX公司运维老大：存储到COS就是冷存储呗，我们需要查询COS里的数据时，还得再把数据恢复到ES里？这样不行，速度太慢了，业务等不了那么长时间，我们的数据不能删除，只能放在ES里！你们能不能给我们提供一个API, 让老的索引数据虽然存储在COS里，但是通过这个API依然可以查询到数据，而不是先恢复到ES，再进行查询？

bellen: 。。。呃，这个可以做，但是需要时间。是否可以采用hadoop on COS的架构，把存量的老的索引数据通过工具导入到COS，通过hive去查询，这样成本会非常低，数据依然是随时可查的。

XX公司运维老大：那不行，我们只想用成熟的ELK架构来做，再增加hadoop那一套东西，我们没那颂判缓么多人力搞这个事!

bellen: 好吧，那可以先搞一个集群测试起来，看看性能怎么样。关于存量数据放在COS里但是也需要查询的问题，我们可以先制定方案，尽快实施起来。

XX公司运维老大：行吧，我们现在按每天10TB数据量预估，先购买一个集群，能撑3个月的数据量就行，能给一个集群配置的建议吗？

bellen: 目前支持单节点磁盘最大6TB, cpu和内存的话可以放到8核32G单节点，单节点跑2w qps写入没有问题，后面也可以进行纵向扩容和横向扩容。

XX公司运维老大：好，我们先测试一下。

N 天后，架构师A直接在微信群里反馈："bellen, 客户反馈这边的ES集群性能不行啊，使用logstash消费kafka中的日志数据，跑了快一天了数据还没追平，这是线上的集群，麻烦紧急看一下吧。。"

我一看，一脸懵, 什么时候已经上线了啊，不是还在测试中吗？

XX公司运维小B: 我们购买了8核32G*10节点的集群，单节点磁盘6TB, 索引设置的10分片1副本，现在使用logstash消费kafka中的数据，一直没有追平，kafka中还有很多数据积压，感觉是ES的写入性能有问题。

随后我立即查看了集群的监控数据，发现cpu和load都很高，jvm堆内存使用率平均都到了90%，节点jvm gc非常频繁了，部分节点因为响应缓慢，不停的离线又上线。。

经过沟通，发现用户的使用姿势是filebeat+kafka+logstash+elasticsearch, 当前已经在kafka中存储了有10天的日志数据，启动了20台logstash进行消费，logstash的batch size也调到了5000，性能瓶颈是在ES这一侧。客户8核32G*10节点的集群，理论上跑10w qps没有问题，但是logstash消费积压的数据往ES写入的qps远不止10w，所以是ES扛不住写入压力了，所以只能对ES集群进行扩容，为了加快存量数据的消费速度，先纵向扩容单节点的配置到32核64GB，之后再横向增加节点，以保证ES集群能够最大支持100w qps的写入(这里需要注意的是，增加节点后索引的分片数量也需要调整)。

所以一般新客户接入使用ES时，必须要事先评估好节点配置和集群规模，可以从以下几个方面进行评估：

上述场景2遇到的问题是业务上线前没有对集群配置和规模进行合理的评估，导致上线后ES集群负载就很高，通过合理的扩容处理，集群最终抗住了写入压力。但是又有新的问题出现了。

因为kafka积压的数据比较多，客户使用logstash消费kafka数据时，反馈有两个问题：

经过分析客户logstash的配置文件，发现问题出现的原因主要是：

分析后，对kafka和logstash进行了如下优化：

通过上述优化，最终使得logstash机器资源都被充分利用上，很快消费完堆积的kafka数据，待消费速度追平生成速度后，logstash消费kafka一直稳定运行，没有出现积压。

另外，客户一开始使用的是5.6.4版本的logstash，版本较老，使用过程中出现因为单个消息体过长导致logstash抛异常后直接退出的问题:

通过把logstash升级至高版本6.8避免了这个问题(6.x版本的logstash修复了这个问题，避免了crash)。

客户的游戏上线有一个月了，原先预估每天最多有10TB的数据量，实际则是在运营活动期间每天产生20TB的数据，原先6TB*60=360TB总量的数据盘使用率也达到了80%。针对这种情况，我们建议客户使用冷热分离的集群架构，在原先60个热节点的基础上，增加一批warm节点存储冷数据，利用ILM(索引生命周期管理)功能定期迁移热节点上的索引到warm节点上。

通过增加warm节点的方式，客户的集群磁盘总量达到了780TB，可以满足最多三个月的存储需求。但是客户的需求还没有满足：

XX公司运维老大：给我们一个能存放一年数据的方案吧，总是通过加节点扩容磁盘的方式不是长久之计，我们得天天盯着这个集群，运维成本很高！并且一直加节点，ES会扛不住吧？

bellen: 可以尝试使用我们新上线的支持本地盘的机型，热节点最大支持7.2TB的本地SSD盘，warm节点最大支持48TB的本地SATA盘。一方面热节点的性能相比云盘提高了，另外warm节点可以支持更大的磁盘容量。单节点可以支持的磁盘容量增大了，节点数量就不用太多了，可以避免踩到因为节点数量太多而触发的坑。

XX公司运维老大：现在用的是云盘，能替换成本地盘吗，怎么替换？

bellen: 不能直接替换，需要在集群中新加入带本地盘的节点，把数据从老的云盘节点迁移到新的节点上，迁移完成后再剔除掉旧的节点，这样可以保证服务不会中断，读写都可以正常进行。

XX公司运维老大：好，可以实施，尽快搞起来！

云盘切换为本地盘，是通过调用云服务后台的API自动实施的。在实施之后，触发了数据从旧节点迁移到新节点的流程，但是大约半个小时候，问题又出现了：

XX公司运维小B: bellen, 快看一下，ES的写入快掉0了。

bellen: 。。。

通过查看集群监控，发现写入qps直接由50w降到1w，写入拒绝率猛增，通过查看集群日志，发现是因为当前小时的索引没有创建成功导致写入失败。

紧急情况下，执行了以下操作定位到了原因：

经过了这次扩容操作，总结了如下经验：

在稳定运行了一阵后，集群又出问题了。。

XX公司运维小B: bellen, 昨晚凌晨1点钟之后，集群就没有写入了，现在kafka里有大量的数据堆积，麻烦尽快看一下？

bellen: 。。。

通过cerebro查看集群，发现集群处于yellow状态，然后发现集群有大量的错误日志：

然后再进一步查看集群日志，发现有"master not discovered yet..."之类的错误日志，检查三个master节点，发现有两个master挂掉，只剩一个了，集群无法选主。

登陆到挂了了master节点机器上，发现保活程序无法启动es进程，第一直觉是es进程oom了；此时也发现master节点磁盘使用率100%，检查了JVM堆内存快照文件目录，发现有大量的快照文件，于是删除了一部分文件，重启es进程，进程正常启动了；但是问题是堆内存使用率太高，gc非常频繁，master节点响应非常慢，大量的创建索引的任务都超时，阻塞在任务队列中，集群还是无法恢复正常。

看到集群master节点的配置是16核32GB内存，JVM实际只分配了16GB内存，此时只好通过对master节点原地增加内存到64GB(虚拟机，使用的腾讯云CVM，可以调整机器规格，需要重启)，master节点机器重启之后，修改了es目录jvm.options文件，调整了堆内存大小，重新启动了es进程。

3个master节点都恢复正常了，但是分片还需要进行恢复，通过GET _cluster/health看到集群当前有超过10w个分片，而这些分片恢复还需要一段时间，通过调大"cluster.routing.allocation.node_concurrent_recoveries"，增大分片恢复的并发数量。实际上5w个主分片恢复的是比较快的了，但是副本分片的恢复就相对慢很多，因为部分副本分片需要从主分片上同步数据才能恢复。此时可以采取的方式是把部分旧的索引副本数量调为0，让大量副本分片恢复的任务尽快结束，保证新索引能够正常创建，从而使得集群能够正常写入。

总结这次故障的根本原因是集群的索引和分片数量太多，集群元数据占用了大量的堆内存，而master节点本身的JVM内存只有16GB(数据节点有32GB)， master节点频繁full gc导致master节点异常，从而最终导致整个集群异常。所以要解决这个问题，还是得从根本上解决集群的分片数量过多的问题。

目前日志索引是按照小时创建，60分片1副本，每天有24*60*2=2880个分片，每个月就产生86400个分片，这么多的分片可能会带来严重的问题。有以下几种方式解决分片数量过多的问题：

和客户沟通过后，客户表示可以接受方式1和方式2，但是方式3和4不能接受，因为考虑到存在磁盘故障的可能性，必须保留一个副本来保证数据的可靠性；另外还必须保证所有数据都是随时可查询的，不能关闭。

在场景5中，虽然通过临时给master节点增加内存，抗住了10w分片，但是不能从根本上解决问题。客户的数据是计划保留一年的，如果不进行优化，集群必然扛不住数十万个分片。所以接下来需要着重解决集群整体分片数量过多的问题，在场景5的最后提到了，用户可以接受开启shrink以及降低索引创建粒度(经过调整后，每两个小时创建一个索引)，这在一定程度上减少了分片的数量，能够使集群暂时稳定一阵。

辅助客户在kibana上配置了如下的ILM策略：

在warm phase, 把创建时间超过360小时的索引从hot节点迁移到warm节点上，保持索引的副本数量为1，之所以使用360小时作为条件，而不是15天作为条件，是因为客户的索引是按小时创建的，如果以15天作为迁移条件，则在每天凌晨都会同时触发15天前的24个索引一共24*120=2880个分片同时开始迁移索引，容易引发场景4中介绍的由于迁移分片数量过多导致创建索引被阻塞的问题，所以以360小时作为条件，则在每个小时只会执行一个索引的迁移，这样把24个索引的迁移任务打平，避免其它任务被阻塞的情况发生。

同时，也在warm phase阶段，设置索引shrink，把索引的分片数缩成5个，因为老的索引已经不执行写入了，所以也可以执行force merge, 强制把segment文件合并为1个，可以获得更好的查询性能。

另外，设置了ILM策略后，可以在索引模板里增加index.lifecycle.name配置，使得所有新创建的索引都可以和新添加的ILM策略关联，从而使得ILM能够正常运行。

客户使用的ES版本是6.8.2，在运行ILM的过程中，也发现一些问题：

这是因为shrink操作需要新把索引完整的一份数据都迁移到一个节点上，然后在内存中构建新的分片元数据，把新的分片通过软链接指向到几个老的分片的数据，在ILM中执行shrink时，ILM会对索引进行如下配置：

问题是索引包含副本，而主分片和副本分片又不能在同一个节点上，所以会出现部分分片无法分配的情况(不是全部，只有一部分)，这里应该是触发了6.8版本的ILM的bug，需要查看源码才能定位解决这个bug，目前还在研究中。当前的workaround是通过脚本定期扫描出现unassigned shards的索引，修改其settings:

优先保证分片先从hot节点迁移到warm节点，这样后续的shrink才能顺利执行(也可能执行失败，因为60个分片都在一个节点上，可能会触发rebalance, 导致分片迁移走，shrink的前置条件又不满足，导致执行失败)。要完全规避这个问题，还得在ILM策略中设置，满足创建时间超过360个小时的索引，副本直接调整为0，但是客户又不接受，没办法。

在场景5和6中，介绍了10w个分片会给集群带来的影响和通过开启shrink来降低分片数量，但是仍然有两个需要重点解决的问题：

可以估算一下，按小时建索引，60分片1副本，一年的分片数为24*120*365=1051200个分片，执行shrink后分片数量24*10*350 + 24*120*15 = 127200(15天内的新索引为了保障写入性能和数据可靠性，仍然保持60分片1副本，旧的索引shrink为5分片1副本), 仍然有超过10w个分片。结合集群一年总的存储量和单个分片可以支持的数据量大小进行评估，我们期望集群总体的分片数量可以稳定为6w~8w，怎么优化？

可以想到的方案是执行数据冷备份，把比较老的索引都冷备到其它的存储介质上比如HDFS，S3，腾讯云的COS对象存储等，但是问题是这些冷备的数据如果也要查询，需要先恢复到ES中才可查，恢复速度比较慢，客户无法接受。由此也产生了新的想法，目前老的索引仍然是1副本，可以把老索引先进行冷备份，再把副本调为0，这样做有以下几点好处：

经过和客户沟通，客户接受了上述方案，计划把老索引冷备到腾讯云的对象存储COS中，实施步骤为：

其中步骤1的实施可以通过脚本实现，本案例中采用腾讯云SCF云函数进行实施，方便快捷可监控。实施要点有：

在实施完步骤1之后，就可以批量把对索引进行过备份的索引副本数都调为0，这样一次性释放了很多磁盘空间，并且显着降低了集群整体的分片数量。

接下来实施步骤2，需要每天执行一次快照，多创建时间较久的索引进行备份，实施比较简单，可以通过crontab定时执行脚本或者使用腾讯云SCF执行。

步骤2实施之后，就可以修改ILM策略，开启cold phase, 修改索引副本数量为0:

此处的timing是创建时间20天后，需要保证步骤2中对过去老索引数据备份先执行完成才可以进入到cold phase.

通过老索引数据冷备并且降低索引副本，我们可以把集群整体的分片数量维持在一个较低的水位，但是还有另外一个问题待解决，也即shrink失败的问题。刚好，我们可以利用对老索引数据冷备并且降低索引副本的方案，来彻底解决shrink失败的问题。

在场景5中有提到，shrink失败归根接地是因为索引的副本数量为1，现在我们可以吧数据备份和降低副本提前，让老索引进入到ILM的warm phase中时已经是0副本，之后再执行shrink操作就不会有问题了；同时，因为副本降低了，索引从hot节点迁移到warm节点迁移的数据量也减少了一半，从而降低了集群负载，一举两得。

因此，我们需要修改ILM策略，在warm phase就把索引的副本数量调整为0，然后去除cold phase。

另外一个可选的优化项是，对老的索引进行冻结，冻结索引是指把索引常驻内存的一些数据从内存中清理掉(比如FST, 元数据等)，从而降低内存使用量，而在查询已经冻结的索引时，会重新构建出临时的索引数据结构存放在内存中，查询完毕再清理掉；需要注意的是，默认情况下是无法查询已经冻结的索引的，需要在查询时显式的增加"ignore_throttled=false"参数。

经过上述优化，我们最终解决了集群整体分片数量过多和shrink失败的问题。在实施过程中引入了额外的定时任务脚本实施自动化快照，实际上在7.4版本的ES中，已经有这个功能了，特性名称为 SLM (快照生命周期管理)，并且可以结合ILM使用，在ILM中增加了"wait_for_snapshot"的ACTION, 但是却只能在delete phase中使用，不满足我们的场景。

在上述的场景4-7中，我们花费大量的精力去解决问题和优化使用方式，保证ES集群能够稳定运行，支持PB级别的存储。溯本回原，如果我们能有一个方案使得客户只需要把热数据放在SSD盘上，然后冷数据存储到COS/S3上，但同时又使冷数据能够支持按需随时可查，那我们前面碰到的所有问题都迎刃而解了。可以想象得到的好处有：

而这正是目前es开源社区正在开发中的Searchable Snapshots功能，从 Searchable Snapshots API 的官方文档上可以看到，我们可以创建一个索引，将其挂载到一个指定的快照中，这个新的索引是可查询的，虽然查询时间可能会慢点，但是在日志场景中，对一些较老的索引进行查询时，延迟大点一般都是可以接受的。

所以我认为，Searchable Snapshots解决了很多痛点，将会给ES带了新的繁荣！

经历过上述运维和优化ES集群的实践，我们总结到的经验有：

从一开始和客户进行接触，了解客户诉求，逐步解决ES集群的问题，最终使得ES集群能够保持稳定，这中间的经历让我真真正正的领悟到"实践出真知"，只有不断实践，才能对异常情况迅速做出反应，以及对客户提的优化需求迅速反馈。

阅读全文

热点内容

scratch少儿编程课程发布：2025-04-16 17:11:44 浏览：627

荣耀x10从哪里设置密码发布：2025-04-16 17:11:43 浏览：356

java从入门到精通视频发布：2025-04-16 17:11:43 浏览：73

php微信接口教程发布：2025-04-16 17:07:30 浏览：297

android实现阴影发布：2025-04-16 16:50:08 浏览：787

粉笔直播课缓存发布：2025-04-16 16:31:21 浏览：337

机顶盒都有什么配置发布：2025-04-16 16:24:37 浏览：202

编写手游反编译都需要学习什么发布：2025-04-16 16:19:36 浏览：800

proteus编译文件位置发布：2025-04-16 16:18:44 浏览：356

土压缩的本质发布：2025-04-16 16:13:21 浏览：582

kibana源码

与kibana源码相关的资讯