이 자습서 예제의 테스트는 단위 테스트입니까? 또는 예제 통합 테스트입니까? 기능 테스트? 나도 몰라, 당신은 당신이 의견이있는 경우 아래의 의견에 말해. 내가 선택해야한다면, 우리는 스트리밍 제공 업체를 스텁하기 때문에 단위 테스트를 말하고 싶습니다. 이제 Kafka에서 읽을 때 주제, 파티션 및 파티션 수를 병렬처리에 대한 상한으로 기본적인 이해가 되었습니다. 그러나 Spark 스트리밍 작업또는 스톰 토폴로지와 같은 응용 프로그램의 결과적인 영향은 무엇입니까? 요약하자면, 초기 스파크 스트리밍 실험을 즐겼습니다. 스파크/스파크 스트리밍에는 아직 몇 가지 문제가 있지만, 스파크 커뮤니티가 결국 이러한 문제를 해결할 수 있을 것이라고 확신합니다. 저는 Spark 커뮤니티가 긍정적이고 기꺼이 도움을 줄 수 있다는 것을 알게 되었으며, 앞으로 몇 달 동안 어떤 일이 일어날지 기대하고 있습니다. 이 기사의 후속 섹션에서는 스파크와 카프카의 병렬 처리에 대해 많이 이야기합니다. 이러한 섹션에서 토론을 수행하려면 최소한 일부 Spark 용어에 대한 기본적인 이해가 필요합니다. KafkaUtils.createStream 메서드가 오버로드되므로 몇 가지 다른 메서드 서명이 있습니다. 이 예제에서는 가장 제어할 수 있는 스칼라 변형을 선택합니다. 검사점 정보가 저장되는 내결함성이 있고 신뢰할 수 있는 파일 시스템(예: HDFS, S3 등)에 디렉터리를 설정하여 검사점을 활성화할 수 있습니다.
이 작업은 스트리밍컨텍스트.checkpoint(검사점디렉터리)를 사용하여 수행됩니다. 이렇게 하면 앞에서 언급한 상태 풀 변환을 사용할 수 있습니다. 또한 드라이버 오류로부터 응용 프로그램을 복구하려면 스트리밍 응용 프로그램을 다시 작성하여 다음 동작을 수행해야 합니다. 쿼리는 백그라운드에서 실행 중인 개수라는 스트리밍 쿼리에 대한 핸들입니다. 이 쿼리는 지속적으로 파일을 선택하고 창이 있는 개수를 업데이트합니다. 코드를 복사하고 붙여 넣기를 원하지 않는 경우 github에서 코드를 가져올 수 있습니다. https://github.com/tmcgrath/spark-course 스파크 코스 리포지토리를 가져오면 스파크 스트리밍 테스트 디렉토리에 있습니다. Spark의 실행 모델에서 각 응용 프로그램은 전체 응용 프로그램의 기간 동안 유지되고 여러 스레드에서 1개 이상의 작업을 실행하는 자체 실행기를 가져옵니다. 이 격리 방식은 Storm의 실행 모델과 유사합니다.