Flink 初级编程实践 - WordCount 程序开发教程

本教程将指导您使用 IntelliJ IDEA 开发并运行 Flink 的 WordCount 程序,并涵盖从环境搭建到程序运行的完整步骤。

实验目的

  1. 通过实验掌握基本的 Flink 编程方法。
  2. 掌握用 IntelliJ IDEA 工具编写 Flink 程序的方法。

实验平台

  1. 操作系统: Linux(建议 Ubuntu 18.04 或 Ubuntu 16.04)。
  2. Flink 版本: 1.9.1。
  3. IntelliJ IDEA。

实验步骤

1. 使用 IntelliJ IDEA 工具开发 WordCount 程序

在 Linux 系统中安装 IntelliJ IDEA,使用 IntelliJ IDEA 工具开发 WordCount 程序,并打包成 JAR 文件,提交到 Flink 中运行。

  1. 首先,在 Linux 系统中下载并安装 IntelliJ IDEA。可以通过官方网站下载对应版本的安装包,然后按照安装向导进行安装。
  2. 打开 IntelliJ IDEA,在欢迎界面选择"Create New Project"。
  3. 在弹出的窗口中选择"Apache Flink",然后点击"Next"。
  4. 在"New Project"窗口中,填写项目名称和项目路径,然后点击"Finish"。
  5. 在项目结构中,右键点击"src"文件夹,选择"New" - "Package",创建一个新的包。
  6. 在新创建的包上右键点击,选择"New" - "Java Class",创建一个新的 Java 类。
  7. 在新创建的 Java 类中,编写 WordCount 程序的代码。以下是一个简单的 WordCount 程序示例:
  8. import org.apache.flink.api.java.ExecutionEnvironment;
    import org.apache.flink.api.java.operators.DataSource;
    import org.apache.flink.api.java.tuple.Tuple2;
    

    public class WordCount { public static void main(String[] args) throws Exception { // 创建一个执行环境 ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 读取文本文件并将每行拆分为单词
        DataSource<String> text = env.readTextFile("path/to/your/textfile.txt");
        DataSet<Tuple2<String, Integer>> counts = text.flatMap(new Tokenizer())
                .groupBy(0)
                .sum(1);
    
        // 打印结果
        counts.print();
    }
    
    public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
            // 将每行字符串拆分为单词并输出
            String[] words = value.toLowerCase().split("\W+");
            for (String word : words) {
                if (word.length() > 0) {
                    out.collect(new Tuple2<>(word, 1));
                }
            }
        }
    }
    

    }

  9. 在代码中的`readTextFile`方法中,将"path/to/your/textfile.txt"替换为实际的文本文件路径。
  10. 在 IntelliJ IDEA 的菜单栏中选择"Build" - "Build Project",编译项目。
  11. 在 IntelliJ IDEA 的菜单栏中选择"Build" - "Build Artifacts" - "Build",构建 JAR 文件。
  12. 在 Linux 系统中,使用命令行进入 Flink 的安装目录。
  13. 将生成的 JAR 文件复制到 Flink 的安装目录下。
  14. 在命令行中运行以下命令提交任务:
  15. ./bin/flink run -c WordCount path/to/your/jarfile.jar
    

    将"path/to/your/jarfile.jar"替换为实际的 JAR 文件路径。

  16. 等待任务执行完成,可以在控制台或日志文件中查看 WordCount 程序的输出结果。

通过以上步骤,您就可以在 IntelliJ IDEA 中开发并运行 Flink 的 WordCount 程序了。

Flink 初级编程实践 - WordCount 程序开发教程

原文地址: https://www.cveoy.top/t/topic/pniQ 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录