最佳开发工具大全!前谷歌工程师两年打造“厂外生存指南”,登上GitHub热榜
本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处”。 一位曾经的谷歌工程师,花费两年时间,辛苦整理了一份清单。 这个名为“xg2xg”的清单,原本是这位前谷歌工程师(ex-Googler),为所有离职的谷歌工程师写的一份“厂外”生存指南。 但实际上,这个大全实打实地也成为了一份最佳开发工具大全。 所有的程序员,都能受益于此。 美国网友对这个大全给予了很高的评价:这份清单中列出的开源软件,不仅解决了硅谷大厂前员工的难处,也能为其他所有码农解除困惑。 在这套大全的指导下,任何一个工程师,都能获得类似在谷歌内部写代码的体验。xg2xg上线仅仅一天就登上趋势榜,收获2500+星! 清单其中大部分替代软件是Google开源的项目,或者是受谷歌论文的启发,由开源软件基金会自己做的第三方实现。即使你从来没进过Google工作,也在享受着Google工程师们带来的福利。不禁让人感叹“谷歌拯救世界”。 下面就让我们一起来看看这份清单吧。 开发工具一览 这份清单总共有两部分,前半部分介绍的是码农常用的开发工具,包括核心技术、基础设施、服务、开发运维等;后半部分则面向非技术人员。 核心技术工具 大数据处理工具 Google内部工具:MapReduce; 替代品:Apache Hadoop、Spark 想要在上千台机器组成的大集群上、并行处理上TB级别的海量数据集,就要用到这类大规模数据处理工具了。 MapReduce,就是这类工具的先驱。Jeff Dean等人2004年提出了这个分布式计算架构,最早在Google内部用来处理大规模数据的并行计算。Jeff Dean还亲自为它撰写过使用指南。 而Apache Hadoop这个开源替代品,也是根据Jeff Dean当年的论文自行实现而成,能提供与MapReduce文件系统类似的功能。 如果想要更快的数据处理速度,还有Apache Spark供你选择。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。 序列化工具 Google内部:Protocol Buffer; 外部替代品:Protobuf、Thrift、Avro 这一组工具用于结构化数据序列化,上面这些,都是xml替代品,比它更小、更快、也更简单。 Protocol Buffer和Protobuf都是Google开发的序列化格式(Serialization Format),github上可以找到这个项目的源代码。 比起XML和JSON,Protobuf 更小、更快,也更简洁,很适合做数据存储或 RPC 数据交换格式。只需要定义一次数据结构,就可以利用各种不同语言或者从各种不同数据流中对结构化数据进行轻松读写。 完全撇开Google,也不是就没有别的选择了。其他厂商也有类似的序列化方案。 比如Facebook开发的Thrift ,它与Protobuf基本一样。 Avro 同样也有schema(也就是程序中结构化数据的定义),但是实现方式跟 Protobuf 和 Thrift 有很大区别。 由于数据不需要额外的标注,Avro 在序列化大量相同的数据时会比 Protobuf 和 Thrift 更有效率。不过在编码大量变化的数据时,因为schema会随数据一同存储,Avro的效率会退化到 JSON 和 MessagePack 的级别。 看来在核心技术工具上,重回人间的前Google人还是有许多不错的选择的。 基础设施 大型集群管理系统 Google内部:Borg;外部替代品:Kubernetes、Apache Mesos、HashiCorp Nomad 大型集群管理系统用于管理云平台中多个主机上的容器化的应用。 Borg是Google内部的大型集群管理系统,现如今应用最广泛的服务编配系统Kubernetes就脱胎于Borg。 Borg 让开发者能够不必操心资源管理的问题,做到跨多个数据中心的资源利用率最大化。 没有Borg十五年的经验,也就不会有Kubernetes。虽然作者把它放在开源/真实世界这一栏里,但事实上Kubernetes也是由Google设计并参与开发的。 Kubernetes使用Go语言编写, 是一个大而全的解决方案,服务调度、网络、存储、安全通通一手抓,而且本身的架构也非常好,在上面做二次开发非常容易。 HashiCorp Nomad同样是一个比较常见的开源调度程序,架构简单,能将资源管理器和调度程序的功能集成到一个系统中。Nomad也是分布式的,高可用且易操作。但显然Kubernetes的功能会更丰富。 至于Mesos,它仅仅是一个调度系统,无法直接使用,要配合各种 Mesos framework 来实现各类功能。 存储 当然,Google内部工具也不是所有的都能找到完美的替代品。 至少在存储这件事情上,就有网友不赞同原作者观点。他认为这份清单在一定程度上具有误导性,某些替代品根本达不到Google内部工具的水平。 比如将Colossus和HDFS对比是在开玩笑,相比之下,HDFS就像是一个玩具。要说对比,它智能和十年前已经退役的GFS相当。 但HDFS恐怕是开源软件中Colossus最好的替代品,对于“通用,大型,分布式文件系统”的使用情况,很难找到有比HDFS更好的了。 其他开发工具 (编辑:ASP站长网) |