Flink 初级编程实践 - WordCount 程序开发教程
Flink 初级编程实践 - WordCount 程序开发教程
本教程将指导您使用 IntelliJ IDEA 开发并运行 Flink 的 WordCount 程序,并涵盖从环境搭建到程序运行的完整步骤。
实验目的
- 通过实验掌握基本的 Flink 编程方法。
- 掌握用 IntelliJ IDEA 工具编写 Flink 程序的方法。
实验平台
- 操作系统: Linux(建议 Ubuntu 18.04 或 Ubuntu 16.04)。
- Flink 版本: 1.9.1。
- IntelliJ IDEA。
实验步骤
1. 使用 IntelliJ IDEA 工具开发 WordCount 程序
在 Linux 系统中安装 IntelliJ IDEA,使用 IntelliJ IDEA 工具开发 WordCount 程序,并打包成 JAR 文件,提交到 Flink 中运行。
- 首先,在 Linux 系统中下载并安装 IntelliJ IDEA。可以通过官方网站下载对应版本的安装包,然后按照安装向导进行安装。
- 打开 IntelliJ IDEA,在欢迎界面选择"Create New Project"。
- 在弹出的窗口中选择"Apache Flink",然后点击"Next"。
- 在"New Project"窗口中,填写项目名称和项目路径,然后点击"Finish"。
- 在项目结构中,右键点击"src"文件夹,选择"New" - "Package",创建一个新的包。
- 在新创建的包上右键点击,选择"New" - "Java Class",创建一个新的 Java 类。
- 在新创建的 Java 类中,编写 WordCount 程序的代码。以下是一个简单的 WordCount 程序示例:
- 在代码中的`readTextFile`方法中,将"path/to/your/textfile.txt"替换为实际的文本文件路径。
- 在 IntelliJ IDEA 的菜单栏中选择"Build" - "Build Project",编译项目。
- 在 IntelliJ IDEA 的菜单栏中选择"Build" - "Build Artifacts" - "Build",构建 JAR 文件。
- 在 Linux 系统中,使用命令行进入 Flink 的安装目录。
- 将生成的 JAR 文件复制到 Flink 的安装目录下。
- 在命令行中运行以下命令提交任务:
- 等待任务执行完成,可以在控制台或日志文件中查看 WordCount 程序的输出结果。
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;
public class WordCount {
public static void main(String[] args) throws Exception {
// 创建一个执行环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
// 读取文本文件并将每行拆分为单词
DataSource<String> text = env.readTextFile("path/to/your/textfile.txt");
DataSet<Tuple2<String, Integer>> counts = text.flatMap(new Tokenizer())
.groupBy(0)
.sum(1);
// 打印结果
counts.print();
}
public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
// 将每行字符串拆分为单词并输出
String[] words = value.toLowerCase().split("\W+");
for (String word : words) {
if (word.length() > 0) {
out.collect(new Tuple2<>(word, 1));
}
}
}
}
}
./bin/flink run -c WordCount path/to/your/jarfile.jar
将"path/to/your/jarfile.jar"替换为实际的 JAR 文件路径。
通过以上步骤,您就可以在 IntelliJ IDEA 中开发并运行 Flink 的 WordCount 程序了。
原文地址: https://www.cveoy.top/t/topic/pniQ 著作权归作者所有。请勿转载和采集!