본문 바로가기

전체 글

(30)
Delta Live Table Delta Live Table 이란? Streaming 처리를 가능하게하는 Table(실제로 catalog에 table 이 생성됨) 약어는 DLT 비슷한 경쟁제품 * Streaming SQL 제품군 * AWS Glue * Apache Atlas * Grafana 기존의 Databricks Delta 테이블과는 다르게, Delta Live Table은 변경된 데이터가 즉시 반영된다. 데이터를 더 빠르게 처리하고, 더 빠르게 제공할수 있다. 쿼리와 함께 사용할 수 있으며, 일반적인 SQL 쿼리와 마찬가지로 사용할 수 있다. Delta 와 마찬가지로 ACID 트랜잭션을 지원하여, 데이터 무결성을 보장한다. 스트리밍 데이터와 배치 데이터를 함께 처리할수 있다. ACID 트랜잭션이란? DB에서 데이터 일관성을 보..
Kafka 초기설정 kafka 용어 Broker 는 kafka 의 서버를 뜻하며 동일노드에 여러개의 Broker 를 띄울수 있다. 이렇게 여러개의 Broker 가 띄워져 분산되어 있으며 이 분산 Message Queue 를 관리해주는것이 Zookeeper 이다 . 서버를 띄우기 앞서 반드시 Zookeeper 를 띄워야한다. kafka를 다운로드하고 실행해보자 다운로드 링크 : https://kafka.apache.org/downloads Binary 파일을 다운로드한후 압축 해제 kafka 폴더 > bin > windows 경로로 이동 앞서 말했듯 zookeeper 를 먼저 실행해야한다 . cmd 창을 열고 .\zookeeper-server-start.bat ..\..\config\zookeeper.properties zo..
MapReduce Architecture MapReduce Architecture 일반적으로 코딩을 처음 시작할때 우리는 “Hello world” 를 접해봤을 것이다. 그렇다면 데이터 분야의 “Hello World” 는 MapReduce Architecture 의 이해라고 할수있다. 그 예시로 Word count 를 해보자. 진행순서 1. Mapping line 또는 구분자로 Split 데이터를 key : value 형태로 mapper 에 add 시킨다. 여기서 key 는 split 데이터 이고 값은 1 고정이다 2. Shuffing 동일한 key 로 분기처리한다. 3. Sorting 분기처리된 key를 list 로 만든다. 4. Reducing 돌일한 key를 count하고 값을 ++1 시킨다
Hive , Hive on Tez Hive , Hive on Tez Hive 는 Hadoop 기반이다. 대규모 데이터 솔루션중 하나라고 생각하면 되겠다. 주요 역할은 다음과 같다. ETL : 데이터 추출, 변환, 로드를 수행한다. HDFS 에 저장할수 있다. 데이터 쿼리 및 분석 : Hive는 HQL을 사용해서 대규모 대이터를 쿼리하고 분석한다. 저장 및 관리 : 다양한 처리 도구와 연동 가능하다. Hbase, Spark, Impala 등과 연동되며, RDBMS 와도 연동가능 그렇다면 Hive on Tez 는? Hive on Tez는 Hive를 데이터 처리엔진 중 하나인 Apache Tez 위에 구현한 것이다. Hadoop MapReduce 의 단점을 보완하기 위해 개발된 데이터 처리 엔진중 하나이며, 빠른 데이터 처리 성능을 제공한다...
Reft 파밍 스트레스 해소 fect.템복사 본 문서는 Strem Reft 에 한정됩니다. 1. Save 파일 복사 중괄호 {} 안의 경로는 본인의 환경에 맞게 수정하셔야 합니다. C://user/{윈도우로그인아이디}/AppData/LocalLow a. C 경로는 내PC 에서 찾을수 있습니다. b. user 경로는 한글 windows 에서 볼때 사용자 로 보입니다. c. AppData 가 보이지 않을경우 파일 탐색기 에서 보기 -> 숨긴 항목 에 체크해줍니다.
Databricks REST API Structure Account 별로 Workspace 가 여러개일 수 있기 땜누에, Account level 의 API 와 Workspace level 의 API로 나뉘어져 있다. Limitation endpoint 별 worksapce 별로 요청 회수 제한이 있고, limit 을 초과하는 경우 응답 코드로 429 가 온다.