저장소

취업특강_**가 들려주는 현장 이야기(AI&빅데이터) 본문

참고자료

취업특강_**가 들려주는 현장 이야기(AI&빅데이터)

HB HB 2024. 12. 27. 13:56

**결론 (MIND SET)
- 최근 기술들을 계속 살펴보고 공부하고 직접 활용해보기
- 이해한 것들과 하고 있는 것들을 잘 정리해보기 > 만드는 것을 잘 설명해보는 것이 중요 : 나뿐만 아니라 협업에도 도움이 됨
- “왜”하는지 끊임없이 생각해보기 > 내가 한 일이 어떤 가치가 있는지 정리해보는 것
- 우선 순위 정하기 > 프로젝트에 투입되는 인원은 생각보다 충분하지 않기 때문에, 여러 프로젝트를 동시에 진행할 수도 있음
- 역할분담 > R&R 잘 정해야 마찰없이 진행할 수 있음
- 다른 영역의 지식도 소홀히 하지 않기(cloud, api, database 등..)


*데이터사이언스 = 결국 모델링 싸움 + 모듈을 위한 코드 개발
  - 파이썬 중요, 실제 운영위한 코드 개발 필요하기 때문에 api 개발도 어느정도 필요
  - 특정 분야를 정해서 필요한 기술을 빠르게 찾고 활용할 수 있는 능력이 필요 (특정분야 예시 : nlp, tabular, image, forecasting 등 큰 분야)
     > 1) 문제에 맞는 기술 찾기 2) 빠르게 모델 이해하고 코드돌리기 3) 성능향상을 위한 모델 수정
  - 필요 능력 : DL/ML 모델링, 통계분석 관련 지식, Expertimentation
  - 데이터사이언스가 흔히 하는 실수 : output에 지나친 몰입
     > 현업이 어떻게 활용할 수 있을지 유념해야 함. 성능에만 매몰되면 현업 담당자는 활용할 수 없음
     > ”비지니스적 가치“를 생각해야함. 내가 낸 결과물이 어떤 비지니스적 가치를 가질 수 있는가
  - 모델링 : EDA / DL 및 ML 모델 설계 / Data preprocess / data labelling
  - MLops (사이클 효율적으로 돌아갈 수 있도록 플랫폼화) > 이를 통해 ML 대량 생산 가능, 모델 관리 용이
  - LLMops (대규모 언어 모델 효율적으로 배포, 모니터링 및 유지관리) > 언어모델은 트래킹이 중요하기 때문. ex)랜스미스

*데이터 애널리스트 = 전처리(중요) + 시각화
  - 파이썬(for EDA), tableau, R, SQL
  - 시각화는 효율적으로 현업이 이해할 수 있도록 하기 위해서
  - 문제 정의 능력,  EDA(중요) > 어떤 비지니스 가치 전달할 것인지 수많은 EDA통해 발굴
  - 발표 능력
  - 통계, reporting, business insight, storytelling, data viz

*데이터 엔지니어
  - SQL(필수), 파이썬 , 자바
  - 클라우드에 대한 경험과 지식, Docker 환경 자유롭게 구축 가능, DB 및 data에 대한 이해, computer science에 대한 지식(git api, os, 컴퓨터 구조, 네트워크, 자료 구조 등)
  - Database, pipeline, modeling
  - "open코드 계속 돌려보고, 수정하고, 반복 학습이 답“

* ML Engineer
  - 파이썬
  - Docker / kubernetes (컨테이너화된 앱을 자동으로 배포, 스케일링, 관리하는데 사용되는 관리 시스템) / mlflow / 최신 ai 관심 (모델에 대한 이해 필요)

*NLP
  - NLU (컴퓨터가 인간의 언어 이해하고 해석 > 검색엔진, 비지니스 챗봇
  - LLG (컴퓨터가 자연스러운 인간언어 생성) > 요약 생성
  - 타임라인 > 트랜스포머 등장 전 후로 크게 나뉨, 인코더 기반 / 디코더 기반

  - 실제 업무에서 사용하는 모델 > gpt 4.0 / bert(초기) / deberta / diffcse
  - Fine tuning -> 비지니스 지식 학습 시킴 -> down stream task (실제 해결하고 싶은 문제)

*GEN AI > 업무 효율화, 비용절감 (ex LGE 챗봇, 서울교통공사 안전 chat gpt..)
  - VAE
  - GAN (판별자가 진짜인지 가짜인지 판별 - 생성자는 이를 기반으로 더 사실적으로 개발)
  - Diffusion (노이즈 계속 줌)
  - Transformer
  - Auto regressive model (생성된 결과물 참고해서 다음을 생성
  - 요즘 관심 이슈 “비용절감”
     > SLLM (경량화 시키는 것이 이슈 > 표현범위 숫자 줄여서 메모리 단축)
  - LLM 성능 체크 사이트 : chatbot Arena > 이를 기반으로 경량화 연습 해보는 것 추천

* 어떤 직무를 할 것인가 정해서 > 타겟 기업 선정 > 맞는 경력 만드는 것 추천

Comments