RPC调用失败时应区分错误类型并精准重试:net/rpc用*rpc.Error判断Code,gRPC须用status.FromError()解包再判Code;仅对codes.Unavailable等临时性错误按指数退避重试≤3次。
err 通常不是 nil,但具体类型容易被忽略Go 标准库的 net/rpc 和主流 gRPC(google.golang.org/grpc)在出错时都返回非 nil 的 error,但它们的底层类型完全不同:net/rpc 返回的是 *rpc.Error(含 Code、Msg 字段),而 gRPC 返回的是 *status.Status(需用 status.FromError() 解包)。直接用 errors.Is(err, xxx) 或字符串匹配 err.Error() 容易漏判或误判。
实操建议:
net/rpc:检查 err 是否为 *rpc.Error,再判断 Code 是否为 rpc.ErrShutdown 或自定义错误码status.FromError(err),再用 .Code() 判断是否为 codes.Unavailable、codes.DeadlineExceeded 等可重试状态strings.Contains(err.Error(), "timeout") —— gRPC 的超时错误信息可能不含 “timeout” 字样,且不同版本输出不一致for + time.Sleep
简单循环重试会掩盖真实问题,比如服务端永久性错误(如参数校验失败、权限不足)或客户端配置错误(如错误的 endpoint)。重试只应针对临时性故障(网络抖动、服务瞬时过载、连接中断)。
实操建议:
codes.Unavailable、codes.ResourceExhausted(限流)、codes.Internal(部分场景)、codes.Unknown(谨慎)codes.InvalidArgument、codes.PermissionDenied、codes.NotFound、codes.AlreadyExists
func callWithRetry(client MyServiceClient, ctx context.Context, req *Request) (*Response, error) {
var resp *Response
var err error
backoff := 100 * time.Millisecond
for i := 0; i < 3; i++ {
resp, err = client.DoSomething(ctx, req)
if err == nil {
return resp, nil
}
s, ok := status.FromError(err)
if !ok || !isRetryable(s.Code()) {
return nil, err
}
if i < 2 { // 不在最后一次迭代后 sleep
time.Sleep(backoff)
backoff *= 2
}
}
return resp, err
}context.Context 超时与重试必须协同设计常见错误是给整个重试过程设一个长 context.WithTimeout(如 30s),再在里面做 3 次各 5s 的 RPC 调用——这会导致最后一次调用可能只剩不到 1s 超时时间,还没发出去就被 cancel。更糟的是,重试中间的 time.Sleep 也计入 context 超时,进一步压缩可用时间。
实操建议:
ctx, cancel := context.WithTimeout(parentCtx, singleCallTimeout)
golang.org/x/time/rate 或类似限流器,注意它不感知 context 取消,需手动结合 select 检查 ctx.Done()
Unary RPC 错误发生在一次调用结束时,而 streaming RPC(如 ClientStream)可能在 Send()、Recv() 或 CloseAndRecv() 任意环节出错,且错误后 stream 已关闭,无法继续复用。
实操建议:
Send() 和 Recv() 都必须单独检查 e
rr,不能只在最后检查Recv() 出错,应立即退出循环并关闭 stream;不要尝试在错误后继续 Recv()
真正难处理的,是那些看似可重试、但重试后行为不一致的情况——比如上游服务未实现幂等,或者重试触发了重复扣款。这类问题无法靠客户端重试逻辑解决,必须推动服务端补全幂等键和状态机校验。