What is Spark?

Table of Contents:

[!todo]

  1. Docker compose로 Kafka, Spark를 구축한다.
    1. Kafka
      • Topic 이름 : devices
      • 내부 연결 DNS: broker
      • Docker Container 구축
  2. Airflow와 연동한다.

Spark 알아보기

PySpark - Kafka streaming 이용해 연동한다.

![[Pasted image 20240220164849.png]]

Kafka Broker에 저장된 토픽을 PySpark를 이용해 실시간 스트리밍하기

Kafka 연동과 실시간 스트리밍을 위한 jar파일을 알아본다.

  1. 필요한 jar 파일
    kafka-clients-2.5.0.jar
    spark-streaming-kafka-0-10_2.12-3.2.0.jar
    spark-streaming_2.12-3.2.0.jar
    spark-sql-kafka-0-10_2.12-3.2.0.jar
    spark-token-provider-kafka-0-10_2.12-3.2.0.jar
    

없다면 아래의 Maven Stroage에서 확인 할 수 있다. 위의 필요한 jar 파일을 다운 받는다.

https://mvnrepository.com/artifact/org.apache.spark
wget https://repo1.maven.org/maven2/org/apache/kafka/kafka-clients/3.4.1/kafka-clients-3.4.1.jar
wget https://repo1.maven.org/maven2/org/apache/spark/spark-sql-kafka-0-10_2.13/3.4.2/spark-sql-kafka-0-10_2.13-3.4.2.jar
wget https://repo1.maven.org/maven2/org/apache/spark/spark-streaming_2.13/3.4.2/spark-streaming_2.13-3.4.2.jar
wget https://dlcdn.apache.org/spark/spark-3.4.2/spark-3.4.2-bin-hadoop3.tgz
wget https://repo1.maven.org/maven2/org/apache/spark/spark-token-provider-kafka-0-10_2.13/3.4.2/spark-token-provider-kafka-0-10_2.13-3.4.2.jar
  • Spark 버전에 맞는 jar파일 다운로드
    kafka-clients-3.4.1.jar
    spark-sql-kafka-0-10_2.13-3.4.2.jar
    spark-sql_2.13-3.4.2.jar
    spark-streaming_2.13-3.4.2.jar
    spark-token-provider-kafka-0-10_2.13-3.4.2.jar
    

Spark가 Kafka에서 Topic을 읽어오는 방식

  • [b] REF

접근방식

[!todo]

  1. Docker compose로 Kafka, Spark를 구축한다.
    1. Kafka
      • Topic 이름 : devices
      • 내부 연결 DNS: broker
      • Docker Container 구축
  2. Airflow와 연동한다.

Spark 알아보기

PySpark - Kafka streaming 이용해 연동한다.

!Pasted image 20240220164849.png

Kafka Broker에 저장된 토픽을 PySpark를 이용해 실시간 스트리밍하기

Kafka 연동과 실시간 스트리밍을 위한 jar파일을 알아본다.

  1. 필요한 jar 파일
    kafka-clients-2.5.0.jar
    spark-streaming-kafka-0-10_2.12-3.2.0.jar
    spark-streaming_2.12-3.2.0.jar
    spark-sql-kafka-0-10_2.12-3.2.0.jar
    spark-token-provider-kafka-0-10_2.12-3.2.0.jar
    

없다면 아래의 Maven Stroage에서 확인 할 수 있다. 위의 필요한 jar 파일을 다운 받는다.

https://mvnrepository.com/artifact/org.apache.spark
wget https://repo1.maven.org/maven2/org/apache/kafka/kafka-clients/3.4.1/kafka-clients-3.4.1.jar
wget https://repo1.maven.org/maven2/org/apache/spark/spark-sql-kafka-0-10_2.13/3.4.2/spark-sql-kafka-0-10_2.13-3.4.2.jar
wget https://repo1.maven.org/maven2/org/apache/spark/spark-streaming_2.13/3.4.2/spark-streaming_2.13-3.4.2.jar
wget https://dlcdn.apache.org/spark/spark-3.4.2/spark-3.4.2-bin-hadoop3.tgz
wget https://repo1.maven.org/maven2/org/apache/spark/spark-token-provider-kafka-0-10_2.13/3.4.2/spark-token-provider-kafka-0-10_2.13-3.4.2.jar
  • Spark 버전에 맞는 jar파일 다운로드
    kafka-clients-3.4.1.jar
    spark-sql-kafka-0-10_2.13-3.4.2.jar
    spark-sql_2.13-3.4.2.jar
    spark-streaming_2.13-3.4.2.jar
    spark-token-provider-kafka-0-10_2.13-3.4.2.jar
    

Spark가 Kafka에서 Topic을 읽어오는 방식

  • [b] REF

접근방식

About Hallo. 안녕하세요! 정승혜 입니다. 개발 일지 뿐만 아니라 나의 관심 있는 모든 것을 담을거예요.