Apache Beam 文档

本章提供了深入的概念信息,并针对 Beam 模型, SDKs 与 Runners 也提供了参考资料:

概念

学习 Beam 编程模型与所有 Beam SDKs 和 Runners 的共同概念.

Pipeline 基础原理

SDKs

在所有的 Beam SDK 上查找有用的状态和参考信息.

Runners

在一个特定的(通常是分布式的)数据处理系统上一个 Beam Runner 运行一个 Beam pipeline.

可用的 Runners

选择 Runner

Beam 设计的目的是让 pipeline 能够在不同的 runner 上都可以移动. 然而, 由于每个 runner 拥有不同的功能, 它们也有不同功能以实现 Beam 模型中的核心概念. 该 兼容性矩阵 提供了 runner 功能上更详细的比较.

一旦您选择了要使用哪一个 runner, 请看 runner 的页面以获得有关任何初始化指定 runner 设置的更多信息, 以及任何需要或可选的 PipelineOptions 用于它的执行. 您也许也想要去参阅针对 JavaPython 的快速入门, 以了解有关执行 WordCount(示例)pipeline 的说明.