spark - kafka - example

aqib1 · aqib1 · commit d04cb662bddb · 2019-10-25T13:13:16.000+05:00
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,5 @@
+/.metadata/
+Spark-Kafka/.gitignore
+Spark-Kafka/mvnw
+Spark-Kafka/mvnw.cmd
+Spark-Kafka/.mvn/
diff --git a/Spark-Kafka/pom.xml b/Spark-Kafka/pom.xml
@@ -0,0 +1,94 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
+	<modelVersion>4.0.0</modelVersion>
+	<parent>
+		<groupId>org.springframework.boot</groupId>
+		<artifactId>spring-boot-starter-parent</artifactId>
+		<version>2.2.0.RELEASE</version>
+		<relativePath /> <!-- lookup parent from repository -->
+	</parent>
+	<groupId>com.spark.kafka.task</groupId>
+	<artifactId>Spark-Kafka</artifactId>
+	<version>0.0.1-SNAPSHOT</version>
+	<name>Spark-Kafka</name>
+	<description>Demo project for Spark Kafka</description>
+
+	<properties>
+		<java.version>1.8</java.version>
+	</properties>
+
+	<dependencies>
+		<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql-kafka-0-10 -->
+		<dependency>
+			<groupId>org.apache.spark</groupId>
+			<artifactId>spark-sql-kafka-0-10_2.11</artifactId>
+			<version>2.3.1</version>
+			<scope>provided</scope>
+		</dependency>
+
+		<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
+		<dependency>
+			<groupId>org.apache.spark</groupId>
+			<artifactId>spark-sql_2.11</artifactId>
+			<version>2.3.1</version>
+		</dependency>
+		
+		<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
+		<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
+		<dependency>
+			<groupId>org.apache.spark</groupId>
+			<artifactId>spark-core_2.11</artifactId>
+			<version>2.3.1</version>
+		</dependency>
+		<!-- https://mvnrepository.com/artifact/org.junit.jupiter/junit-jupiter-api -->
+		<!-- https://mvnrepository.com/artifact/junit/junit -->
+		<dependency>
+			<groupId>junit</groupId>
+			<artifactId>junit</artifactId>
+			<scope>test</scope>
+		</dependency>
+	</dependencies>
+	<build>
+		<plugins>
+			<plugin>
+				<groupId>org.apache.maven.plugins</groupId>
+				<artifactId>maven-shade-plugin</artifactId>
+
+				<executions>
+					<!-- Run shade goal on package phase -->
+					<execution>
+						<phase>package</phase>
+						<goals>
+							<goal>shade</goal>
+						</goals>
+						<configuration>
+							<transformers>
+								<!--add Main-Class to manifest file -->
+								<transformer
+									implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
+									<manifestEntries>
+										<Main-Class>com.spark.kafka.task.SparkKafkaApplication</Main-Class>
+										<Build-Number>1</Build-Number>
+									</manifestEntries>
+								</transformer>
+							</transformers>
+							<filters>
+								<filter>
+									<artifact>*:*</artifact>
+									<excludes>
+										<exclude>META-INF/*.SF</exclude>
+										<exclude>META-INF/*.DSA</exclude>
+										<exclude>META-INF/*.RSA</exclude>
+									</excludes>
+								</filter>
+							</filters>
+						</configuration>
+					</execution>
+				</executions>
+			</plugin>
+
+		</plugins>
+</build>
+</project>
diff --git a/Spark-Kafka/src/main/java/com/spark/kafka/task/SparkKafkaApplication.java b/Spark-Kafka/src/main/java/com/spark/kafka/task/SparkKafkaApplication.java
@@ -0,0 +1,9 @@
+package com.spark.kafka.task;
+
+public class SparkKafkaApplication {
+
+	public static void main(String[] args) {
+		
+	}
+
+}
diff --git a/Spark-Kafka/src/main/java/com/spark/kafka/task/client/SSClient.java b/Spark-Kafka/src/main/java/com/spark/kafka/task/client/SSClient.java
@@ -0,0 +1,94 @@
+package com.spark.kafka.task.client;
+
+import java.util.Objects;
+
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+import org.apache.spark.sql.streaming.StreamingQuery;
+
+import com.spark.kafka.task.exceptions.DataSetFailoverException;
+import com.spark.kafka.task.exceptions.SparkSessionFailoverException;
+
+/**
+ * @author Shahzad Masud
+ *
+ *         In this example we are going to use spark structured streaming, The
+ *         difference between spark streaming and spark structured streaming is
+ *         that structured streaming does not use any concept of micro-batches
+ *         like spark streaming, instead it's architecture is more likely
+ *         towards real streaming where data is poll after some
+ *         duration/interval and result is appended in a unbounded table.
+ * 
+ *         where as spark streaming use a concept of batches where record
+ *         belongs to a batch of DStream
+ *
+ */
+public class SSClient {
+
+	private static final String KAFKA_FORMAT = "kafka";
+	private static final String SUBSCRIBER_KEY = "subscribe";
+	private static String TOPIC_NAME = "MTKAF";
+	private static final String KAFKA_BOOTSTRAP_SERVER_KEY = "kafka.bootstrap.servers";
+	private static final int BROKER_PORT_NUMBER = 6667;
+	private static final String BROKER_DOMAIN_NAME = "sandbox-hdp.hortonworks.com";
+	private static final String SPAKR_STREAM_STARTING_OFFSET_KEY = "startingOffsets";
+	private static final String SPARK_STREAM_STARTING_OFFSET_BEGINNING = "earliest";
+
+	private static final String MASTER_PATH = "local[*]";
+	private static final String SPARK_SQL_STREAMING_CHECKPOINT_LOCATION_CONFIG = "spark.sql.streaming.checkpointLocation";
+	private static final String SPARK_SQL_STREAMING_CHECKPOINT_LOCATION = "/user/sparktest/checkpoints";
+	private static SSClient ssClient = null;
+	private SparkSession sparkSession = null;
+	private Dataset<Row> datasets;
+
+	public SSClient initSpark() {
+		try {
+			sparkSession = SparkSession.builder().appName(SSClient.class.getName()).master(MASTER_PATH)
+					.config(SPARK_SQL_STREAMING_CHECKPOINT_LOCATION_CONFIG, SPARK_SQL_STREAMING_CHECKPOINT_LOCATION)
+					.getOrCreate();
+			
+		} catch (Exception e) {
+			throw new SparkSessionFailoverException(e.getMessage(), e);
+		}
+		return ssClient;
+	}
+
+	public SSClient loadDataFromKafka() {
+		try {
+			datasets = sparkSession.readStream().format(KAFKA_FORMAT)
+					.option(KAFKA_BOOTSTRAP_SERVER_KEY, BROKER_DOMAIN_NAME + ":" + BROKER_PORT_NUMBER)
+					.option(SUBSCRIBER_KEY, TOPIC_NAME)
+					.option(SPAKR_STREAM_STARTING_OFFSET_KEY, SPARK_STREAM_STARTING_OFFSET_BEGINNING).load();
+		} catch (Exception e) {
+			throw new DataSetFailoverException(e.getMessage(), e);
+		}
+		return ssClient;
+	}
+	
+	public void writeData() {
+		datasets = datasets.selectExpr("CAST(value AS STRING)");
+		Dataset<String> dataAsJson = datasets.toJSON();
+		StreamingQuery query = dataAsJson.writeStream()
+		  .format("console")
+		  .outputMode("complete")
+		  .start();
+		
+		query.awaitTermination();
+	}
+
+	private SSClient() {
+
+	}
+
+	public static SSClient getInstance() {
+		if (Objects.isNull(ssClient)) {
+			synchronized (SSClient.class) {
+				if (Objects.isNull(ssClient)) {
+					ssClient = new SSClient();
+				}
+			}
+		}
+		return ssClient;
+	}
+}
diff --git a/Spark-Kafka/src/main/java/com/spark/kafka/task/exceptions/DataSetFailoverException.java b/Spark-Kafka/src/main/java/com/spark/kafka/task/exceptions/DataSetFailoverException.java
@@ -0,0 +1,19 @@
+package com.spark.kafka.task.exceptions;
+
+public class DataSetFailoverException extends RuntimeException {
+
+	/**
+	 * 
+	 */
+	private static final long serialVersionUID = -2009928124293947716L;
+	
+	public DataSetFailoverException(String message) {
+		super(message);
+	}
+
+	public DataSetFailoverException(String message, Throwable e) {
+		super(message, e);
+	}
+
+
+}
diff --git a/Spark-Kafka/src/main/java/com/spark/kafka/task/exceptions/SparkSessionFailoverException.java b/Spark-Kafka/src/main/java/com/spark/kafka/task/exceptions/SparkSessionFailoverException.java
@@ -0,0 +1,18 @@
+package com.spark.kafka.task.exceptions;
+
+public class SparkSessionFailoverException extends RuntimeException {
+
+	/**
+	 * 
+	 */
+	private static final long serialVersionUID = -5511413755856786260L;
+
+	public SparkSessionFailoverException(String message) {
+		super(message);
+	}
+
+	public SparkSessionFailoverException(String message, Throwable e) {
+		super(message, e);
+	}
+
+}
diff --git a/Spark-Kafka/src/main/resources/application.properties b/Spark-Kafka/src/main/resources/application.properties
@@ -0,0 +1 @@
+
diff --git a/Spark-Kafka/src/test/java/com/spark/kafka/task/SparkKafkaApplicationTests.java b/Spark-Kafka/src/test/java/com/spark/kafka/task/SparkKafkaApplicationTests.java
@@ -0,0 +1,13 @@
+package com.spark.kafka.task;
+
+import org.junit.jupiter.api.Test;
+import org.springframework.boot.test.context.SpringBootTest;
+
+@SpringBootTest
+class SparkKafkaApplicationTests {
+
+	@Test
+	void contextLoads() {
+	}
+
+}