Scala Spark 工程代码示例:词频统计
以下是一个简单的 Spark 工程代码示例,使用 Scala 编写:
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName('WordCount')
val sc = new SparkContext(conf)
val inputFile = args(0)
val outputFile = args(1)
val input = sc.textFile(inputFile)
val words = input.flatMap(line => line.split(' '))
val counts = words.map(word => (word, 1)).reduceByKey((a, b) => a + b)
counts.saveAsTextFile(outputFile)
}
}
这个示例程序读取一个文本文件,并对其中的单词进行计数,最后将结果保存到一个文件中。程序的运行需要两个参数,分别是输入文件路径和输出文件路径。可以使用以下命令来运行这个程序:
spark-submit --class WordCount --master local[2] wordcount.jar input.txt output
其中,--class 参数指定了程序的入口类,--master 参数指定了 Spark 的执行模式,wordcount.jar 是打包好的工程代码,input.txt 是输入文件路径,output 是输出文件路径。
原文地址: https://www.cveoy.top/t/topic/mXel 著作权归作者所有。请勿转载和采集!