[Spark] Streaming 데이터를 DB에 저장하는 코드

scala 2019. 4. 4. 13:42

Spark에서

Streaming 데이터를 DB에 저장할 때. 일반적인 데이터 프레임에서 저장하는 방식을 사용할 수 없다.

(만약 사용하면 streaming 데이터 프레임에서 그렇게 저장할 수 없다라는 에러가 나온다)

따라서 Sink 형태(ForeachWriter 상속) 방식을 사용해야 한다.

(단순한 형태의 구현이다 )

예시) Spark Streaming Data Frame쪽 소스

val writer:ForeachWriter[DeserializedFromKafkaRecord] = new JdbcSink(sinkDBUrl, sinkTable);
val query = dataframe
.writeStream
.foreach(writer)
.outputMode("append")
.start()
query.awaitTermination()

예시) ForeachWriter를 구현한 JdbcSink.scala 파일

package streaming

import java.sql.Statement
import java.sql.Connection
import java.sql.DriverManager

import org.apache.commons.lang3.StringUtils
import org.apache.spark.sql.ForeachWriter

class JdbcSink(url: String, tablename: String) extends ForeachWriter[DeserializedFromKafkaRecord]{
val driver = "com.mysql.cj.jdbc.Driver"
var statement:Statement = _
var connection:Connection = _

def open(partitionId: Long, version: Long): Boolean = {
Class.forName(driver)
connection = DriverManager.getConnection(url)
this.statement = connection.createStatement()
true
}

override def process(record: DeserializedFromKafkaRecord): Unit = {
if (StringUtils.isEmpty(record.value)) {
throw new IllegalArgumentException
}

val value = record.value.replace("'", "").replace("\"", "")
statement.executeUpdate("insert into " + tablename + "(value) values(\"" + value + "\")")
}

override def close(errorOrNull: Throwable): Unit = {
connection.close()
}
}

저작자표시 비영리 동일조건

'scala' 카테고리의 다른 글

sbt 병렬 다운로드 (0)	2019.04.08
sbt assembly 에러 (0)	2019.04.08
[spark] No output operations registered, so nothing to execute 에러 (0)	2019.04.03
[spark] spark에서 DB 테이블 데이터를 읽는 방법 (0)	2019.02.28
[spark] 스파크 조인 전략 - 셔플 조인, 브로캐스트 조인 (shuffle join, broadcast join) (0)	2019.02.27

Posted by '김용환'

« 2025/04 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[Spark] Streaming 데이터를 DB에 저장하는 코드

'scala' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역