Published on2021年7月11日Facebook工程经验:PCIe故障监控和修复大厂实践架构PCIe是当前使用最广泛的硬件高速总线接口,业界主流的GPU、网卡、存储等系统几乎都通过PCIe总线和CPU通信,因此,对于大规模数据中心来说,PCIe的稳定性和可维护性对整个数据中心的高可靠、高可用性至关重要。Facebook在这篇文章里介绍了在数据中心里自动化监控、修复PCIe错误的经验。
Published on2021年6月13日[大厂实践] 个人生产力简易指南大厂实践认知个人成长这是Trello发布的一份提升个人工作效率的指南,介绍了Trello推荐的一些关于个人生产力的方法论、技巧、工具等,从理论到实践指导个人提升生产力与工作、生活效率。帮助提升工作效率、优化工作流程的书有很多,比方说《清单革命》、《Get Things Done》等,基本上都是围绕某一方面展开论述。这篇文章将这些常用的工具和技巧组合在一起,提供了一份关于个人生产力的相对完整的总结,可以作为简易待查手册,在有需要的时候提供一定的线索和指导。
Published on2021年5月29日Google大规模监控系统--Monarch大厂实践架构Monarch是Google的大规模监控系统,服务于Google全球大规模实时业务监控,其实现为超大规模时序数据库集群,被公认为当今全球最大规模的时序数据库。Monarch本身没有开源,主要信息来源于Google在2020年8月份发表在PVLDB上的一篇论文:Monarch: Google’s Planet-Scale In-Memory Time Series Database。这篇文章是Medium上一篇介绍Google Monarch的文章的中文翻译,原文:Understanding Monarch, Google’s Planet-Scale Monitoring System。