전체 글

전체 글

    what is Hadoop

    Hadoop 방대한 양의 데이터를 클러스터내의 하드 드라이브 들에 분산시킨다. 또한 이 분산된 모든 데이터들을 단일 파일 시스템으로 보여준다. 또한 데이터의 여분 또한 제공 혹여 클러스터 내 한 노드가 불이나서 데이터의 손실이 생겼다. 데이터의 백업 복사본을 클러스터의 다른 컴퓨터에도 보관하기 때문에 이런 상황에 있어 자동으로 소실된 데이터를 복구한다. 저장뿐 아니라 데이터를 처리할 때도 클러스터의 컴퓨터들을 함께 이용해 병렬 처리 한다. 클러스터 내 모든 컴퓨터 cpu에게 작업을 분배하여 동시 처리하게 한다. Why Hadoop? 현대 사회가 다루는 데이터는 너무나도 커졌다. 하나의 컴퓨터는 충분하지 않다. 한 대의 성능을 수직적으로 확장하는것의 한계 그리고 그 방대한 데이터 안에서 원하는 데이터를 탐..

    Udemy/Docker-Kubernetes-2022/네트워크,컨테이너간통신

    컨테이너 외부와 통신 컨테이너에서 다른 api에 http 통신을 요청한다. 혹은 호스트머신의 db나 api 등과 통신을 하길 원할때도 있다. 웹서비스가 아니라 도커 없이도 우리 컴퓨터에서 단순하게 실행되는 데이터베이스 등과 같은 것 혹은 다른 컨테이너에서 실행되고 있는것과 통신하길 원해. 다중 컨테이너로 앱을 만든다. 컨테이너(node) ←→ 호스트머신(MongoDB) 컨테이너 내부에서 mongoose.connect(’mongodb://localhost:port/swfavorites’ ,…) 이 부분을 localhost에서 host.docker.internal 로 바꾼다. 도커가 이 부분을 호스트머신의 ip주소로 변경시킨다. http 요청에서도 동일하게 사용가능. 예시: http://host.docker..

    GCP Cloud Storage에 파일 업로드 및 다운로드

    gsutil -m cp -r dir gs://my-bucket # gsutil -m(병렬처리) cp -r(recursive) dir(src) gs://my-bucket(dest) ''' src 를 dest 에 병렬으로 전송한다. 클라우드스토리지의 특정 버켓 주소를 dest로 하면 업로드 클라우드스토리지의 특정 버켓 주소를 src로 하면 다운로드 '''

    리눅스 파이썬 백그라운드 실행 및 로그 저장

    파이썬 백그라운드 실행 nohup python3 ./base.py & # &옵션은 파일을 백그라운드 실행하게 하며, 해당 터미널 프로세스를 종료하여도 해당파일은 실행된다. # nohup 옵션은 파일 실행 중 출력들을 nohup.out 에 저장시킨다. 출력을 nohup.out외에 따로 정의한 파일에 저장 nohup python3 ./base.py 14001 16001 >& myoutput.out & # >& 는 앞의 stdout과 stderr 모두를 뒤의 파일에 저장한다. # 단순 stdout만 기록하길 원한다면 > 를 사용한다. 실행중인 프로세스 목록들 중 해당 문자열을 포함하는 프로세스들을 검색 '''ps -ef | grep 원하는문자열''' ps -ef | grep py

    1월 2주차 정리 html에서 표 가져오기 | 디렉토리 내 파일 탐색 | 파일 확장자 검사 | 사용자 정의 예외처리 | 디렉토리 내 모든 데이터프레임 합치기 | 데이터프레임 정렬 및 인덱스 초기화 | 로..

    html에서 표 가져오기 및 데이터프레임으로 만들기 import pandas as pd url='https://naver.com/......' # 이와 같은 url 주소 table = pd.read_html(url, header=0, encoding='utf-8') # 해당 http 문서에 있는 table 들을 모두 가져온다. print(table[1]) # 인덱스를 사용해 원하는 테이블에 접근 가능 table2 = pd.read_html(url, match = '국가', header=0, encoding='utf-8') # 해당 문서에 있는 table 중 특정 문자열을 포함하는 표만 가져온다. print(table2[0]) #위 조건에 만족하는 표가 하나였어도 리스트안에 데이터프레임이 들어있는 형태로 ..

    01.08 vi 문자열찾기 | 환경변수 추가 | 리스트간집합연산

    vi 에서 문자열 찾기 :/ 찾을문자열 -> 현재 커서 위치에서 아래쪽으로 문자열 탐색 :?찾을문자열 -> 현재 커서 위치에서 위쪽으로 문자열 탐색 그 다음 문자열를 탐색(계속 탐색)을 하려면 소문자 "n" 을 누르면 되고 이전 문자열를 탐색(계속 탐색 - 역방향)을 하려면 대문자 "N"을 누르면 된다. 리눅스 환경변수 추가 export PATH=$PATH:새로등록할프로그램이위치한주소 리스트간 차집합 lst1 = ['A', 'B', 'C', 'D'] lst2 = ['C', 'D', 'E', 'F'] complement = list(set(lst1) - set(lst2)) print( complement ) # ['B', 'A'] complement = list(set(lst1).difference(lst..

    Dijkstra

    import sys import heapq input = sys.stdin.readline INF = int(1e9) # 노드의 개수, 간선의 개수 입력받기 n, m = map(int, input().split()) start = int(input()) # 각 노드에 연결되어 있는 노드에 대한 정보를 담는 리스트 생성 graph = [[] for _ in range(n+1)] #0번은 취급하지 않기위해 n+1길이만큼 생성 -> 노드연결정보 # 최단거리테이블을 모두 무한으로 초기화 distance = [INF] * (n+1) # 최단거리테이블 #모든 간성정보를 입력받기 for _ in range(m): a,b,c = map(int, input().split()) graph[a].append((b,c)) #..

    Basic Linux Commands

    09.06 시프 Linux Commands format ls man ls -a 숨겨진것도 -s 사이즈 -l 권한까지 상세히 -al 숨겨진것까지 상세히 ls directory_name File & Directory 히든 파일들은 . 으로 시작한다. .bashrc .ssh cd ~ 홈 디렉토리로 이동 cd / 루트 디렉토리로 이동 pwd 현재 주소 절대경로로 출력 userid@hostname:~$ 쉘을 시작하면 home 디렉토리에서 시작 절대경로 상대경로 절대경로 루트 디렉토리로 시작 /home/wookhee/sysprog/lecture3/sysorog 상대경로 현재 디렉토리 = working directory 현재 디렉토리 = . 상위 디렉토리들 = .. working directory = …./syspr..

    Udemy/Docker-Kubernetes-2022/볼륨 & ARG & ENV

    섹션3 볼륨 종류와 개념 VOLUME [”도커내부저장소”] 호스트 머신에 있는 미러링된 저장소를 알 수 있는 방법은 docker volume 익명 볼륨 익명 볼륨을 관리하는 것은 컨테이너. 컨테이너가 존재하는 동안에만 실제로 존재한다. 컨테이너에 이미 존재하는 특정 데이터를 잠그는데 유용하다. 명명된 볼륨 컨테이너 종료후에도 살아있다. 영구적이어야하는 데이터이거나 편집하거나 직접 볼 필요가없는 중요한 데이터에 적합 실질적으로 호스트 머신의 폴더에 엑세스하지 않을 것이기 때문 도커파일 내부에 named volume 생성 불가 docker run …. -v [volume_name]:[컨테이너내부저장소] docker volume ls docker rmi [imagename] Bind mount 소스코드가 변경..

    Udemy/Docker-Kubernetes-2022/도커 기본 커맨드 & 도커 이미지

    섹션1 docker build . 현재경로에서 dockerfile 찾아서 build → image 생성 docker run -p 3000:3000 4719fad9c1ed 이미지id를 뒤에 써서 컨테이너 생성 및 실행 docker ps docker stop stoic_easley docker stop container_name 섹션2 docker run [imagename] -it : 컨테이너 내부에서 호스팅 머신으로 대화형 세션을 노출해줘라 COPY src dest src : 이미지로 복사할 파일들이 있는 경로 WORKDIR RUN 명령어가 실행될 곳 ./ → working dir RUN 이미지가 빌드될때 CMD 컨테이너가 실행될때 EXPOSE cmd 이전에 항상 호스트에게 이 포트를 열겠다. docke..