使用 OpenTelemetry 统一不同服务的范围

2024年 2月 14日 51.9k 0

使用 opentelemetry 统一不同服务的范围

php小编小新今天为大家介绍一种强大的工具——OpenTelemetry,它可以帮助开发者在不同的服务中实现统一的范围管理。在现代的分布式系统中,应用程序通常由多个微服务组成,每个微服务都有自己的日志、指标和追踪信息。OpenTelemetry提供了一种简单而强大的方式来集成和管理这些信息,使得开发者能够更好地理解和调试整个系统的性能和行为。无论是在本地开发环境还是在生产环境中,OpenTelemetry都能帮助开发者更好地理解和优化他们的应用程序。

问题内容

我刚刚开始使用 opentelemetry,并为此创建了两个(微)服务:standard 和 geomap。

最终用户向standard服务发送请求,后者又向geomap发送请求以获取信息,然后再将结果返回给最终用户。我使用 grpc 进行所有通信。

我已经对我的功能进行了这样的检测:

对于标准:

type standardservice struct {
pb.unimplementedstandardserviceserver
}

func (s *standardservice) getstandard(ctx context.context, in *pb.getstandardrequest) (*pb.getstandardresponse, error) {

conn, _:= createclient(ctx, geomapsvcaddr)
defer conn1.close()

newctx, span1 := otel.tracer(name).start(ctx, "getstandard")
defer span1.end()

countryinfo, err := pb.newgeomapserviceclient(conn).getcountry(newctx,
&pb.getcountryrequest{
name: in.name,
})

//...

return &pb.getstandardresponse{
standard: standard,
}, nil

}

func createclient(ctx context.context, svcaddr string) (*grpc.clientconn, error) {
return grpc.dialcontext(ctx, svcaddr,
grpc.withtransportcredentials(insecure.newcredentials()),
grpc.withunaryinterceptor(otelgrpc.unaryclientinterceptor()),
)
}

登录后复制

对于地理地图:

type geomapservice struct {
pb.unimplementedgeomapserviceserver
}

func (s *geomapservice) getcountry(ctx context.context, in *pb.getcountryrequest) (*pb.getcountryresponse, error) {

_, span := otel.tracer(name).start(ctx, "getcountry")
defer span.end()

span.setattributes(attribute.string("country", in.name))

span.addevent("retrieving country info")

//...

span.addevent("country info retrieved")

return &pb.getcountryresponse{
country: &country,
}, nil

}

登录后复制

这两个服务都配置为将其跨度发送到 jaeger 后端并共享几乎相同的主要功能(评论中指出了细微的差异):

const (
name = "mapedia"
service = "geomap" //or standard
environment = "production"
id = 1
)

func tracerProvider(url string) (*tracesdk.TracerProvider, error) {
// Create the Jaeger exporter
exp, err := jaeger.New(jaeger.WithCollectorEndpoint(jaeger.WithEndpoint(url)))
if err != nil {
return nil, err
}
tp := tracesdk.NewTracerProvider(
// Always be sure to batch in production.
tracesdk.WithBatcher(exp),
// Record information about this application in a Resource.
tracesdk.WithResource(resource.NewWithAttributes(
semconv.SchemaURL,
semconv.ServiceName(service),
attribute.String("environment", environment),
attribute.Int64("ID", id),
)),
)
return tp, nil
}

func main() {

tp, err := tracerProvider("http://localhost:14268/api/traces")
if err != nil {
log.Fatal(err)
}

defer func() {
if err := tp.Shutdown(context.Background()); err != nil {
log.Fatal(err)
}
}()
otel.SetTracerProvider(tp)

listener, err := net.Listen("tcp", ":"+port)
if err != nil {
panic(err)
}

s := grpc.NewServer(
grpc.UnaryInterceptor(otelgrpc.UnaryServerInterceptor()),
)
reflection.Register(s)
pb.RegisterGeoMapServiceServer(s, &geomapService{}) // or pb.RegisterStandardServiceServer(s, &standardService{})
if err := s.Serve(listener); err != nil {
log.Fatalf("Failed to serve: %v", err)
}
}

登录后复制

当我查看最终用户对标准服务的请求生成的跟踪时,我可以看到它正如预期的那样,调用其geomap服务:

但是,我没有看到已添加到子范围的任何属性或事件(我在检测 geomapgetcountry 函数时添加了一个属性和 2 个事件/em>)。

然而,我注意到这些属性在另一个单独的跟踪中可用(在 jaeger 中的“geomap”服务下可用),其跨度 id 与标准服务中的子跨度完全无关:

现在我期望的是有一个跟踪,并查看与 标准 范围内的子范围中的 geomap 相关的所有属性/事件。如何从这里得到预期的结果?

解决方法

跨度上下文(包含跟踪 id 和跨度 id,如“service instrumentation & 中所述)术语")应该从父跨度传播到子跨度,以便它们成为同一跟踪的一部分。

使用 opentelemetry,这通常是通过使用为各种库(包括 grpc)提供的插件来检测代码来自动完成的。
但是,在您的情况下,传播似乎无法正常工作。

在您的代码中,您将在 getstandard 函数中启动一个新范围,然后在发出 getcountry 请求时使用该上下文 (newctx)。这是正确的,因为新上下文应该包含父跨度的跨度上下文 (getstandard)。
但问题可能与您的 createclient 函数有关:

func createclient(ctx context.context, svcaddr string) (*grpc.clientconn, error) {
return grpc.dialcontext(ctx, svcaddr,
grpc.withtransportcredentials(insecure.newcredentials()),
grpc.withunaryinterceptor(otelgrpc.unaryclientinterceptor()),
)
}

登录后复制

您正确使用了otelgrpc.unaryclientinterceptor 在这里,这应该确保上下文正确传播,但不清楚何时调用此函数。如果在调用 getstandard 函数之前调用它,则用于创建客户端的上下文将不包含来自 getstandard 的跨度上下文。

为了进行测试,请尝试确保在调用 getstandard 函数之后创建客户端,并且在整个请求中使用相同的上下文。

您可以通过将 newctx 直接传递给 getcountry 函数来完成此操作,如 getstandard 函数的修改版本所示:

func (s *standardservice) getstandard(ctx context.context, in *pb.getstandardrequest) (*pb.getstandardresponse, error) {
newctx, span1 := otel.tracer(name).start(ctx, "getstandard")
defer span1.end()

conn, _:= createclient(newctx, geomapsvcaddr)
defer conn.close()

countryinfo, err := pb.newgeomapserviceclient(conn).getcountry(newctx,
&pb.getcountryrequest{
name: in.name,
})

//...

return &pb.getstandardresponse{
standard: standard,
}, nil
}

登录后复制

现在,用于创建客户端并发出 getcountry 请求的上下文将包括来自 getstandard 的跨度上下文,并且它们应作为 jaeger 中同一跟踪的一部分出现。

(一如既往,请检查 createclientgetcountry 等函数返回的错误,为简洁起见,此处未显示)。

此外:

  • 另请检查您的传播器:确保您使用相同的上下文传播器 a> 在这两个服务中,最好是 w3c tracecontextpropagator,这是 opentelemetry 中默认的。

    您可以按如下方式显式设置传播器:

    otel.settextmappropagator(propagation.tracecontext{})

    登录后复制

    将以上行添加到两个服务中 main 函数的开头。

  • 确保传递元数据:grpc 拦截器应自动从请求的元数据中注入/提取跟踪上下文,但要仔细检查以确保其正常工作。

    getcountry 函数中启动跨度后,您可以记录跟踪 id 和跨度 id:

    ctx, span := otel.tracer(name).start(ctx, "getcountry")
    sc := trace.spancontextfromcontext(ctx)
    log.printf("trace id: %s, span id: %s", sc.traceid(), sc.spanid())
    defer span.end()

    登录后复制

    并在 getstandard 函数中执行相同的操作:

    newCtx, span1 := otel.Tracer(name).Start(ctx, "GetStandard")
    sc := trace.SpanContextFromContext(newCtx)
    log.Printf("Trace ID: %s, Span ID: %s", sc.TraceID(), sc.SpanID())
    defer span1.End()

    登录后复制

    如果上下文正确传播,两个服务中的跟踪 id 应该匹配。

    以上就是使用 OpenTelemetry 统一不同服务的范围的详细内容,更多请关注每日运维网(www.mryunwei.com)其它相关文章!

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论