Milvus 2.6.13 在 MinIO 网络时延故障下测试写入功能, StreamingNode pod挂掉,且无法自愈 #49417
-
|
内容 环境信息
测试场景我们正在对 Milvus 2.6.13 做 DFX 可靠性测试。 在对 MinIO 注入网络时延故障中,如果只运行Milvus测试脚本的仅查询功能,查询 QPS 表现正常,没有明显异常。 但如果脚本执行"同时查询+写入"功能,insert 请求会超时,然后查询和写入都不可用。之后即使停止脚本,只运行脚本的仅查询功能,QPS 仍然无法恢复,持续为 0。 同时观察到 StreamingNode Pod 进入 Chaos 配置对 MinIO Pod 注入 500ms 入方向网络时延: kind: NetworkChaos
apiVersion: chaos-mesh.org/v1alpha1
metadata:
namespace: milvus-cluster
name: minio-delay-500ms
spec:
selector:
namespaces:
- milvus-cluster
labelSelectors:
app.kubernetes.io/name: minio
mode: all
action: delay
duration: 10m
delay:
latency: 500ms
correlation: "100"
jitter: 0ms
direction: to客户端报错开启后台写入后,客户端出现 insert 超时: StreamingNode 报错之后其他 Milvus 组件也出现类似错误: 观察到的现象
想请教的问题
补充说明我们看到社区中有一些可能相关的问题: |
Beta Was this translation helpful? Give feedback.
Replies: 2 comments 46 replies
-
@xiaofan-luan @yanliang567 也许有更多观点和信息输入 |
Beta Was this translation helpful? Give feedback.
-
|
更新下关联问题:
另外用户使用自制的minio老版本镜像,不支持condition write。 从而触发了上面etcd故障的时候SN使用了一个 WP在fallback 模式下已经 lost lock的writer一直重试发送first tt直到超时。 |
Beta Was this translation helpful? Give feedback.
更新下关联问题:
另外用户使用自制的minio老版本镜像,不支持condition write。 从而触发了上面etcd故障的时候SN使用了一个 WP在fallback 模式下已经 lost lock的writer一直重试发送first tt直到超时。
开源用户使用minio时,最好使用minio RELEASE.2024-12-18T13-15-44Z 测试过的版本。