What is Spark?
Table of Contents:
[!todo]
- Docker compose로 Kafka, Spark를 구축한다.
- Kafka
- Topic 이름 : devices
- 내부 연결 DNS: broker
- Docker Container 구축
- Airflow와 연동한다.
Spark 알아보기
PySpark - Kafka streaming 이용해 연동한다.
- ![[Pasted image 20240220164849.png]]
-
Kafka Broker에 저장된 토픽을 PySpark를 이용해 실시간 스트리밍하기
Kafka 연동과 실시간 스트리밍을 위한 jar파일을 알아본다.
- 필요한 jar 파일
kafka-clients-2.5.0.jar spark-streaming-kafka-0-10_2.12-3.2.0.jar spark-streaming_2.12-3.2.0.jar spark-sql-kafka-0-10_2.12-3.2.0.jar spark-token-provider-kafka-0-10_2.12-3.2.0.jar
없다면 아래의 Maven Stroage에서 확인 할 수 있다. 위의 필요한 jar 파일을 다운 받는다.
https://mvnrepository.com/artifact/org.apache.spark
wget https://repo1.maven.org/maven2/org/apache/kafka/kafka-clients/3.4.1/kafka-clients-3.4.1.jar
wget https://repo1.maven.org/maven2/org/apache/spark/spark-sql-kafka-0-10_2.13/3.4.2/spark-sql-kafka-0-10_2.13-3.4.2.jar
wget https://repo1.maven.org/maven2/org/apache/spark/spark-streaming_2.13/3.4.2/spark-streaming_2.13-3.4.2.jar
wget https://dlcdn.apache.org/spark/spark-3.4.2/spark-3.4.2-bin-hadoop3.tgz
wget https://repo1.maven.org/maven2/org/apache/spark/spark-token-provider-kafka-0-10_2.13/3.4.2/spark-token-provider-kafka-0-10_2.13-3.4.2.jar
- Spark 버전에 맞는 jar파일 다운로드
kafka-clients-3.4.1.jar spark-sql-kafka-0-10_2.13-3.4.2.jar spark-sql_2.13-3.4.2.jar spark-streaming_2.13-3.4.2.jar spark-token-provider-kafka-0-10_2.13-3.4.2.jar
Spark가 Kafka에서 Topic을 읽어오는 방식
- [b] REF
[!todo]
- Docker compose로 Kafka, Spark를 구축한다.
- Kafka
- Topic 이름 : devices
- 내부 연결 DNS: broker
- Docker Container 구축
- Airflow와 연동한다.
Spark 알아보기
PySpark - Kafka streaming 이용해 연동한다.
- !Pasted image 20240220164849.png
-
Kafka Broker에 저장된 토픽을 PySpark를 이용해 실시간 스트리밍하기
Kafka 연동과 실시간 스트리밍을 위한 jar파일을 알아본다.
- 필요한 jar 파일
kafka-clients-2.5.0.jar spark-streaming-kafka-0-10_2.12-3.2.0.jar spark-streaming_2.12-3.2.0.jar spark-sql-kafka-0-10_2.12-3.2.0.jar spark-token-provider-kafka-0-10_2.12-3.2.0.jar
없다면 아래의 Maven Stroage에서 확인 할 수 있다. 위의 필요한 jar 파일을 다운 받는다.
https://mvnrepository.com/artifact/org.apache.spark
wget https://repo1.maven.org/maven2/org/apache/kafka/kafka-clients/3.4.1/kafka-clients-3.4.1.jar
wget https://repo1.maven.org/maven2/org/apache/spark/spark-sql-kafka-0-10_2.13/3.4.2/spark-sql-kafka-0-10_2.13-3.4.2.jar
wget https://repo1.maven.org/maven2/org/apache/spark/spark-streaming_2.13/3.4.2/spark-streaming_2.13-3.4.2.jar
wget https://dlcdn.apache.org/spark/spark-3.4.2/spark-3.4.2-bin-hadoop3.tgz
wget https://repo1.maven.org/maven2/org/apache/spark/spark-token-provider-kafka-0-10_2.13/3.4.2/spark-token-provider-kafka-0-10_2.13-3.4.2.jar
- Spark 버전에 맞는 jar파일 다운로드
kafka-clients-3.4.1.jar spark-sql-kafka-0-10_2.13-3.4.2.jar spark-sql_2.13-3.4.2.jar spark-streaming_2.13-3.4.2.jar spark-token-provider-kafka-0-10_2.13-3.4.2.jar
Spark가 Kafka에서 Topic을 읽어오는 방식
- [b] REF
About Hallo. 안녕하세요! 정승혜 입니다. 개발 일지 뿐만 아니라 나의 관심 있는 모든 것을 담을거예요.