'2018/10/12 글 목록

'2018/10/12'에 해당되는 글 2건

2018.10.12 [spark] 기본 파티션 개수
2018.10.12 파이썬에서 selenium과 phantomjs를 연동한 간단 예시

[spark] 기본 파티션 개수

scala 2018. 10. 12. 15:22

scala> val rdd_one = sc.parallelize(Seq(1,2,3))

rdd_one: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> rdd_one.getNumPartitions

res0: Int = 12

scala>

scala> sc.defaultParallelism

res1: Int = 12

기본 파티션 개수는 cpu 개수를 기반으로 만들어지거나 (장비별로 다른 값이 나옴, defaultParallelism으로 확인할 수 있다.) 스파크 설정 매개 변수 spark.default.parallelism 또는 클러스터의 코어 개수 중 하나이다

그외에 큰 자원을 읽을 때 기본 파티션 개수가 변경될 수 있다.

파티션 개수는 RDD 트랜스포메이션을 실행할 태스크 수에 직접적인 영향을 주기 때문에 파티션 개수가 중요하다.

파티션 개수가 너무 적으면 많은 데이터에서 아주 일부의 CPU/코어만 사용하기 때문에 성능이 저하되고 클러스터를 제대로 활용하지 못하게 된다.

반면에 파티션 개수가 너무 많으면 실제로 필요한 것보다 많은 자원을 사용하기 때문에 멀티 테넌트 환경에서는 자원 부족 현상이 발생할 수 있다.

저작자표시 비영리 동일조건 (새창열림)

'scala' 카테고리의 다른 글

Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.im plicits._ Support for serializing other types will be added in future releases. (0)	2018.10.29
[spark] - spark streaming의 누산기 예시 (0)	2018.10.25
[spark] "랜덤 포레스트를 이용한 MNIST 데이터셋 분류" 예 (0)	2018.06.01
[spark] 로지스틱 회귀 분석을 이용한 멀티 클래스 분류 (0)	2018.05.31
[spark] spark-shell 메모리/cpu 설정 (0)	2018.05.31

Posted by '김용환'

파이썬에서 selenium과 phantomjs를 연동한 간단 예시

python 2018. 10. 12. 10:38

파이썬에서 selenium과 phantomjs를 연동한 간단 예시이다.

>>> from selenium import webdriver

>>> driver = webdriver.Firefox()

이전 커맨드를 실행하면 빈 브라우저 창이 열린다. 에러가 발생하면 geckodriver(https://github.com/mozilla/geckodriver/releases)를 설치하고 geckodriver를 사용할 수 있도록 PATH 변수에 추가해야 한다.

geckodriver 파일을 압축을 푼 후 바이너르를 PATH에 추가한 후, executable(예, chmod 755)로 변경한다.

>>> driver.get('https://www.google.com')

driver를 사용해 엘리먼트를 파싱하거나, 파이어폭스가 커맨드를 따라 변경되는 것을 볼 수 있다.

phantomjs와 같은 헤드리스 브라우져와 연동할 수 있다.

http://phantomjs.org/download.html

>>> from selenium import webdriver

>>> driver = webdriver.PhantomJS()

패스에 넣거나 다음처럼 phantomjs 경로를 사용할 수 있다.

>>> driver = webdriver.PhantomJS('utils/phantomsjs')

>>> driver.get('http://python.org')

>>> driver.save_screenshot('python_website.png')

True

이렇게 파일을 확인할 수 있다.

스크린 샷 파일이 긴 윈도우이다. maximize_window를 사용하거나 set_window_size로 윈도우 크기를 설정해 윈도우 크기를 변경할 수 있다.

https://selenium-python.readthedocs.io/api.html

저작자표시 비영리 동일조건 (새창열림)

'python' 카테고리의 다른 글

pip 설치 모듈 확인하기 (0)	2018.10.25
[python] 모듈 프로그래밍 환경 설정 (ModuleNotFoundError 에러 해결) (0)	2018.10.20
파이썬의 try ... import .. except 예시 (0)	2018.10.08
파이썬의 선(Zen of Python) (0)	2018.09.23
[python] pickle 예시 (0)	2018.09.12

Posted by '김용환'

이전 1 다음

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

'2018/10/12'에 해당되는 글 2건

[spark] 기본 파티션 개수

'scala' 카테고리의 다른 글

파이썬에서 selenium과 phantomjs를 연동한 간단 예시

'python' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바