스파크 스트리밍 예제


0 Flares Filament.io 0 Flares ×

TCP 소켓 연결을 통해 수신된 텍스트 데이터에서 DStream을 만드는 빠른 예제에서는 ssc.socketTextStream(…) 소켓 외에도 StreamingContext API는 파일에서 DStreams를 입력 소스로 만드는 방법을 제공합니다. 먼저 스트리밍 기능의 주요 진입점인 StreamingContext를 2초 배치 간격으로 만듭니다. 스파크 스트리밍 테스트 디렉토리에서 이제 명령줄에서 `sbt 정신`을 발행할 수 있습니다. 스트리밍 시스템의 의미체계는 시스템에서 각 레코드를 처리할 수 있는 횟수측면에서 캡처되는 경우가 많습니다. 시스템이 가능한 모든 작동 조건(고장 등)에서 제공할 수 있는 세 가지 유형의 보증이 있습니다. 이 자습서에서는 아파치 스파크 스트리밍의 핵심 개념을 소개하고 2초마다 들어오는 단어 목록을 계산하는 Word Count 데모를 실행합니다. 이제 GitHub에서 샌드박스에 스파크 스트리밍 데모 코드를 다운로드해 보겠습니다. 업그레이드된 Spark 스트리밍 응용 프로그램이 시작되고 기존 응용 프로그램과 병렬로 실행됩니다. 새 새 데이터(이전 데이터와 동일한 데이터 수신)가 워밍업되고 황금 시간대에 준비되면 이전 데이터를 다운시킬 수 있습니다.

이 작업은 두 대상(예: 이전 및 업그레이드된 응용 프로그램)으로 데이터를 전송하는 것을 지원하는 데이터 원본에 대해 수행할 수 있습니다. 예를 들어 map(func)은 func를 인수로 사용하여 각 요소에 적용하여 새 RDD를 반환합니다. 이것은 매우 불행한 상황입니다. 한 가지 해결 방법은 업스트림 데이터 원본 오류 또는 수신기 오류가 발생할 때마다 스트리밍 응용 프로그램을 다시 시작하는 것입니다. 이 해결 방법은 사용 사례에서 Kafka 구성 옵션 auto.offset.reset을 “가장 작은”으로 설정해야 하는 경우 도움이 되지 않을 수 있습니다. 자세한 내용은 아래 스파크 스트리밍의 알려진 문제에 대한 섹션을 참조하십시오. 검사점 구성 – 스트림 응용 프로그램에 필요한 경우 Hadoop API 호환 내결함성 저장소(예: HDFS, S3 등)의 디렉터리를 검사점 디렉토리및 스트리밍 응용 프로그램으로 구성해야 합니다. 검사점 정보는 오류 복구에 사용할 수 있습니다. 자세한 내용은 검사점 섹션을 참조하십시오. 스파크 스트리밍 코드의 기본 단계는 스파크 스트리밍이 HDFS 디렉토리, TCP 소켓, 카프카, 수로, 트위터 등과 같은 데이터 소스를 지원합니다.