KB - kb:bigdata:spark

import_json

Anonymous (anonymous@undisclosed.example.com) — 2022-01-03T16:03:50+00:00

Import JSON import json # import json df = sc.wholeTextFiles('/user/yehuda/development/raw_data/*.json').flatMap(lambda x: json.loads(x[1])).toDF() jsonRDD = sc.wholeTextFiles("/user/yehuda/development/raw_data/file-*.json").map(lambda x: json.loads(x[1])) namesJson = sqlContext.read.json(jsonRDD) namesJson.printSchema ## see https://stackoverflow.com/questions/46521235/hivecontext-object-has-no-attribute-jsonrdd-spark-2-1-1 import json from pyspark.sql.types import StructField, Struc…

ml_save_and_load_model

Anonymous (anonymous@undisclosed.example.com) — 2022-01-03T16:03:50+00:00

ML Save and Load model Train & Save from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import HashingTF, Tokenizer from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.sql.session import SparkSession # Create a local StreamingContext with two working thread and batch interval of 1 second sc = SparkContext("local[2]", "NetworkWordCountML") ssc = StreamingContext(sc, 1) spark = SparkSession(sc…

pyspark_and_hbase

Anonymous (anonymous@undisclosed.example.com) — 2022-01-03T16:03:50+00:00

Spark HBase import sys import json from pyspark import SparkContext from pyspark.streaming import StreamingContext def SaveRecord(rdd): host = 'sparkmaster.example.com' table = 'cats' keyConv = "org.apache.spark.examples.pythonconverters.StringToImmutableBytesWritableConverter" valueConv = "org.apache.spark.examples.pythonconverters.StringListToPutConverter" conf = {"hbase.zookeeper.quorum": host, "hbase.mapred.outputtable": table, "mapreduce.o…

spark_scala_and_maven_pom.xml

Anonymous (anonymous@undisclosed.example.com) — 2022-01-03T16:03:50+00:00

Spark Scala and Maven pom.xml 4.0.0 com.alefbt.bigdata.ml mlserv 0.0.1-SNAPSHOT MLServe 1.8