六个人如何运维一万台服务器?(10)
Portal 平台简介简单介绍一下 Portal 平台,现在也是正在开发中的平台。 Portal 就是以 Appcode 为基础,在 Appcode 的基础上连接了各个运维系统。 比如说主机、账号、GPU 云、ES 云,应用注册、应用配置、应用中间件,环境配置、代码仓库、测试、发布、监控、报警、日志收集,故障管理。 我们把这些系统都汇总到一个 Portal 界面上暴露给开发人员,开发人员进入这个系统之后就可以一站式的把应用相关的想做的事情都做完。 数据互通另外一个好处,刚才讲主机管理,主机可能会有不同维度来解释这个主机是不太一样的。 比如应用发布,有发布主机列表,算账单的时候有个账单主机列表,收集日志的时候也有主机列表,收集监控报警也有主机列表。 只要数据互通之后,我们就可以将这些数据串联起来。比如我们应用,它的主机需要扩容了,扩容两台主机,扩容之后我们就可以自动根据这个应用上的负责人去为主机添加对应的账号。 这样它的负责人就可以利用这个账号登录相应的系统,进行相应的操作。 数据库还有其他的比如 IP 白名单限制,有了数据互通之后,一个应用它的白名单配置就没必要记录在每一个主机上了,就记录在 Appcode 就可以了。 CI/CD部分,应用发布的主机也是和 Appcode 相关联的,应用扩容之后发布的主机也是同样同步过来,发布选择这些主机直接发布就可以了,不需要手动再去填写这些主机列表。 监控分为两个方面,一个是基础监控,一个是业务监控。基础监控也是通过 Appcode 维度可以查看相关的主机的基础监控。 对于业务监控在应用监控指标的收集,也可以通过 Appcode 来拿到它的主机列表,自动去给业务监控指标收集添加这些机器列表,添加完之后收集上来这些应用相关主机的监控指标和日志。 报警系统,因为有了 Appcode 之后,它会对应着一些共同的监控报警项,比如像 Java 里的 GC 报警。 我们有了 Appcode 之后,就可以给每个 Appcode 上的所有机器都默认添加 GC 报警。这个 GC 报警联系人就是 Appcode 一个负责人,每台机器扩容之后它的 GC 报警也就自动添加了。 日志收集也是一样的,之前我们可能还是需要在这个平台手动维护,有了 Appcode 就可以同步这个列表。 数据互通还有另外一个好处,有 Appcode 之后我们就可以非常方便的去计算这个应用所耗费的账单。为什么要计算一个应用的账单? 一方面,让我们提高了成本意识,成本意识在选型过程中也是需要考虑的。 比如一个业务线它有一些数据需要记录下来,它可以选择任何系统,也可以选择数据库,也可以选择 Watcher 。 假如说这个业务访问的频率非常低,比如一天就几次、十几次,把这个数据记录到 Watcher 其实成本非常高昂,因为 Watcher 数据膨胀非常厉害,选择数据库或者日志更划算。 第二可以优化实现,假如你由于算法导致机器资源大量使用,有了账单之后,他们会有意识去节约成本。 (编辑:ASP站长网) |