关注:
你当前的位置 > 凯发k8网址 >
凯发k8网址
KubeCon带你深入K8s 机器学习数据入手全掌握
页面更新时间:2019-11-07 13:14

  围绕 Kubernetes 所构建起来的项目俨然已经成为了现代基础设施的骨干。下图来自 Kubernetes 在 GitHub 网站的代码相关度的图示(来源:阿里巴巴开源治理办公室 赵笙雨):

  从这个角度来看,Kubernetes 像传统意义上的计算机操作系统一样,不仅要承载底层的网络、存储、资源调度等功能,还要担起各种应用调用的管理、性能的监控、以及身份/安全/策略等,一个分布式的操作系统俨然已经成型。那么我们不妨以这样的一个角度来切入,来试图探究 Kubernetes 的衡量与效用。

  你很难想象没有衡量的世界是什么样的?从人体的温度、心脏跳动的次数、大气的压力、计算机的运算能力、磁盘的存储能力、电商网站的交易量……毋宁说这个世界由可观察性 - 衡量来驱动的,你知道目前人类百米速度可以达到多少、超级计算机可以每秒计算多大的数据、人类距离火星有多远、距离下一次哈雷彗星略过地球还有多少天……没有衡量,现代人恐怕连门都出不了,今天的交通是否拥堵?空气湿度如何?风力多大?飞机是否延时?现在时刻是几时?我昨天下的订单,今天什么时候可以拿到?

  回到计算机本身,回到分布式系统本身,我们要知道 Kubernetes 的网络流量、服务发现、性能调度等等诸多指标项,方能进行改进和优化。本届 KubeCon + CloudNativeCon 带来的关于可观察性的议题有关于围绕 Kubernetes 的各种监控工具的介绍和实践:

  Alibaba 因为有双11背书,有着全球罕见的交易高峰挑战,所以对性能的可观察性、可用性、故障的快速恢复有着难以项背的经验,这次峰会带来两场关于此方面的分享,分别是:

  关于 Prometheus 和 Thanos 的扩展,来自阿里巴巴的工程师 Tao Li 和他的同事 Guoan Qin 来分享:1、如何使用 Prometheus 支持大规模场景?2、如何使用 Thanos 实现低查询延迟,从而解决多个 Prometheus 实例导致的数据查询问题?3、我们从 Prometheus 和 Thanos 配置中汲取的经验教训,例如目标发现以及记录和警报规则管理。

  关于超大规模的容器故障恢复,由阿里巴巴的工程师 Xiong Huan 带来:如何利用 1-5-10 提高大规模容器的可靠性:1、如何在本地建立一个有效代理,在 1 分钟内检测到问题;2、如何借助专家知识库智能诊断容器问题;3.如何以故障驱动型方式自动恢复容器问题。

  来自 Apache 基金会的顶级项目 SkyWalking 项目展示,这充分体现了社区的宽容性,来自 Apache 成员,SkyWalking 的 PMC Sheng Wu,将和他在 Tetrate 的同事 Lizan Zhou 来和大家分享 SkyWalking 和 Envoy 配合,在没有代码注入技术或 Istio Mixer 的情况下,我们可以从 Envoy 构建遥测并在 SkyWalking 中进行分析,并且性能良好。用户可以获得清晰直观的服务拓扑图、指标图、请求详细信息和错误消息。充分体现开源的开放优势,无缝整合所有兼容性的项目。

  似乎所有人都会在开源的易用性和安全性上下功夫,就在整个行业趋于开源和基于云的大势之下,唯有一个领域巍然不动,甚至还有上升的趋势,那就是关于身份/安全/策略的问题,这其中的永恒平衡之道,确实也是充满商业机会的空间。看看这次有何精彩的平衡之道:

  来自 Intel 的 Isaku Yamahata 和来自阿里巴巴的 Xiaoning Li 将给我们带来,Software Guard Extention (SGX) 提供只信任英特尔和 SGX 实施,连 OS / VMM / BIOS 都不信任的可信执行环境 (TEE)。它需要修改应用,但由于各种原因有时很难修改应用。理想情况下,未修改的用户二进制文件可以在 SGX 安全区中运行。带来允许未修改的二进制文件在 SGX TEE 中运行的库操作系统。它通过替换共享库来挂钩系统调用。Go 是云原生应用的最流行语言,具有使用静态链接的独特能力。对 Graphene LibOS 进行了增强以支持 golang 二进制,并将其硬化以供生产使用。将分享为 Graphene - SGX LibOS 添加 golang 支持的经验以及未来的计划。

  来自微软公司的 Nikhil Bhatia 和 Styra 的 Torin Sandall 将介绍由 Google、Microsoft 和 CNCF 的开放策略代理 (OPA) 项目与社区共同开发的全新 Gatekeeper 项目。在这次分享中,作为听众的您将会了解如何着手使用上游策略库,其中包括适用于常见场景的规则,例如镜像注册表白名单、标签管理等。还将了解如何使用自己的自定义规则扩展 Gatekeeper,然后将其贡献回社区。最后,如何在软件生命周期的不同阶段(例如CI / CD 和审计)应用相同的策略。

  Google 提出的 SPIFFE,该提议使用 SPIFFE 提出的信任域和捆绑标准解决了不同信任域之间的基本身份联合问题。作为 SPIFFE / SPIRE 的重要协作者,Istio 采用此标准来支持与 SPIRE 和其他身份系统的联合。这一新提出的标准可支持多个服务网格安全地建立信任,从而进行跨网格安全通信。以上内容将由 Google 的工程师 Yonggang Liu 和 Wenchenglu 来共同分享。

  来自IBM的工程师则会介绍关于加密容器镜像方面的内容,他们会向观众展示用户如何在构建过程中创建加密容器的端到端流程,以使用建议的 ImageDecryptSecrets 在 Kubernetes 集群上运行加密容器镜像。以及还将展示加密镜像 OCI 规范如何通过容器镜像的分层来进行细粒度加密。最后,会讨论下 Image Encryption 将如何集成到容器生态系统中,并讨论容器 DevSecOps 管道创新的几种可能性。他们是 Brandon Lum 和 Harshal Patil。

  从匠艺的角度来讲,工程师恨不能榨干计算机的每一份能力,但是往往事情并不是那么理想的状态,还是需要根据实际的场景进行适当的调整,这个世界没有适合所有人脚的鞋子的,只能具体的情况具体分析。

  Serverless 是腾讯云押宝的重要技术领域,所以总要和这个扯上点关系,不过 Serverless 确实遇到很大的挑战就是如何快速的响应突入起来的代码请求,即所谓的冷启动问题,腾讯的工程师 Scott Zhou 和 Yanbo Li 分三个部分来讲解他们的实践:首先,会介绍下腾讯云的 SCF 架构 - 包括网络、基础设施和功能部署 - 以及导致冷启动延迟的因素。接着会介绍下为改进冷启动而正在进行的架构更改,包括对弹性网络接口的改进、从容器到微虚拟机的迁移、功能代码部署和资源重用。最后,会介绍下如何将 ML 与自动缩放相结合,以避免冷启动。

  Google 这个环节仍然不会缺席,由 Jingyi Hu 和 Wenjia Zhang 带来的是 etcd 相关的内容,首先,必须监控是否存在 leader,否则系统将变得不可用。此外,频繁的领导变动可能会影响共识系统的性能。因此,leader 相关指标至关重要。其他一些 etcd 指标也需要特别注意。磁盘 I / O 和网络 I / O 相关指标提示物理约束。延迟和吞吐量指标只有在硬件配置中进行交叉引用时才有意义。我们将向大家介绍 etcd 基准测试工具,解释重要的 etcd 指标,并最终帮助您了解如何在一些案例研究中应用 etcd 指标。

  云原生改变了一些过去的基准测试,比如数据库,红帽作为企业开源的带头人,敢为身先也是绝了,Josh Berkus 将会和大家分享在过去几个月中,红帽对 PostgreSQL、CockroachDB 和文件系统的基准测试结果,以便让听众可以做出最好的权衡。甚至还会教您如何对自己的平台进行基准测试。

  阿里巴巴认为自己是 Kubernetes 的不错的实践者了,甚至开始改进原生的功能,比如 Kubernetes Master 节点的性能,这次带来的分享是如何进行各种基准测试和性能分析的。又是如何对主设备进行调整/微调,并将主设备的性能提升 100 倍以上。目前,运行 10K 节点 kubernetes 集群同运行 2k 节点集群一样流畅。

  毫无讳言,人工智能相关的技术需要分布式的计算环境,基于 Kubernetes 的相关内容也在不断的不工程师们所挖掘和探讨,比如 Kubeflow 就是基于此形式下的一次很好的尝试,Kubeflow 提供了在 Kubernetes下做 TensorFlow 的相关计算,而 TensorFlow 则也是炙手可热的开源项目,我们就来介绍三个相关的议题:

  Google 的 Richard Liu 和思科的 Johnu George 将向我们介绍关于 Kubeflow 的最佳实践:在机器学习中,超参数调优是指为训练模型找到最优约束的过程。选择最优超参数可以大幅提高算法的性能,但是该过程既耗时又昂贵。有鉴于此,发起了 Katib 开源项目,在 Katib - Kubeflow 平台中推出了超参数调优服务。Katib 以自定义资源的形式提供了一套丰富的管理 API。我们将演示如何在笔记本环境中训练模型、配置超参数调优研究,以及如何在 UI 仪表板中比较实验结果。

  自动驾驶汽车需要硬件加速机器学习来解决跟踪和分类等关键问题。Momenta 在本地和公共云中训练 ML 模型,每个模型有着不同的 GPU 和网络接口(Infiniband,RoCE)。 在本次演讲中,来自 Momenta 的 Lei Xue 和 Google Fei Xue 将讨论如何使用 Kubernetes 构建多云ML 平台,特别是如何在不同环境中管理训练数据;如何处理多用户和群组调度;以及如何支持异构硬件。

  深度学习任务既是网络密集型又是 GPU 密集型,因此对编排进行适当优化非常重要。易发的不平衡会导致闲置计算容量,这对于 GPU 节点来说成本太高昂了(与 CPU 相比)。通过分享的经验,希望可提供有用的洞察,帮助从机器学习任务中获得更好的经济效益。来自蚂蚁金服的 Yuan Tang 和 MobileIron 的 Yong Tang 将带来将分享他们的一线经验,并比较两个开源 Kubernetes 运算符:tf - operator 和 mpi - operator。这两个运算符都为 TensorFlow 管理训练任务,但有着不同的分配策略,这就造成了 CPU、GPU 和网络利用率方面的不同性能结果。解决这些问题的实践就是这次要和大家分享的。

  300+ 的演讲者分享,任谁也无法照顾到所有,我们会尽最大努力帮助你梳理,根据你的兴趣来找到对应的分享嘉宾,让你有所成长、有所收获。

  在即将迎来的 Kubernetes 五周年之际,知名媒体《财富》发文总结了 Kubernetes 带给开源社区的五大业绩,确实是实至名归:

  再回到我们文章开头的部分,有人如此下结论说,一个开源项目的成熟和壮大,不仅仅是很多巨头参与进来,而是围绕此产生的利基市场的创业公司开始丰富起来了,从可观察性、安全/身份/策略、性能、机器学习和数据这几大块来说,可以明显的证明这个强相关性。期待作为观众的你不要错过这样的机会。围绕 Kubernetes 的生态尚处于早期,从跨域鸿沟的理论即市场生命周期来讲,尚处于早期采用者阶段,加入这个生态是有很多机会存在的,值得去奋斗并把握!

  出乎意料的是,本次大会的售票异常火爆,出于会场的安全考虑,参加大会的人数是被严格限制的,会务组将根据注册的人数提前关闭超过限额的售票通道,所以千万不要等到通道被关闭后再追悔莫及,且现在的票价还有优惠。

  个人或学术注册: 500人民币(需要发送电子邮件至 申请批准。晚注册600,即时可省100!)

  请!注!意!6月7日下周五就要实行晚注册票价了,切勿犹豫不决,抓住最后标准票的机会。

  2019年 6月24日~26日,请大家抓住机会,我们在上海世博中心不见不散!

  CNCF(云原生计算基金会)致力于培育和维护一个厂商中立的开源生态系统,来推广云原生技术。我们通过将最前沿的模式民主化,让这些创新为大众所用。请长按以下二维码进行关注。