Spark Streaming实战：Python实现词频统计和日志分析

1. 实时词频统计

本示例演示如何使用Spark Streaming统计每个时间窗口内每个单词出现的次数。pythonfrom pyspark.streaming import StreamingContext

代码解析:

首先，我们创建一个 StreamingContext 对象，设定时间窗口为5秒。2. 接着，创建一个 DStream 从TCP Socket中读取数据流。3. 使用 flatMap 将每行文本分割成单词。4. 使用 map 和 reduceByKey 对单词进行计数。5. 最后，使用 pprint 打印每个时间窗口内每个单词的出现次数。

假设我们有一个web服务器，它会不断地生成日志文件。我们希望使用Spark Streaming来实时监控这些日志文件，并统计出现错误信息的次数。pythonfrom pyspark.streaming import StreamingContext

代码解析:

创建一个 StreamingContext 对象，时间窗口设置为1分钟。2. 使用 textFileStream 方法创建一个 DStream 来监控日志目录。3. 使用 filter 方法筛选出包含'ERROR'的日志信息。4. 使用 count 方法统计每分钟出现的错误信息数量。5. 使用 pprint 方法打印每分钟的错误信息数量。

总结:

通过这两个简单的示例，我们可以看到Spark Streaming可以很方便地进行实时数据处理。它提供了丰富的API，可以处理各种类型的数据源和数据格式。