Data Analyst

Reach Out

Certifications

SQLD

ADsP

컴퓨터활용능력 1급

GTQ 1급

GTQi 1급

About Me

안녕하세요. 사람들과의 소통을 좋아하는 데이터 분석가 차한영입니다.

Python 기반의 데이터 분석을 수행하고 있습니다.
경쟁을 즐기는 분석가로 다양한 딥러닝 프레임워크를 사용하는 대회에 많은 관심이 있습니다.
교육봉사, 강사 등 여러 교육 활동을 데이터 공부와 병행하며 커뮤니케이션 능력을 키워왔습니다.

Projects

보스레이드중인 캐릭터 Tracking 알고리즘 구현[개인]

2024.03.15 - 2024.04.01

Github: https://github.com/chahanyeong/Maplestory-mycharacter_Tracking/tree/main

[목적]

보스레이드중인 자신의 캐릭터를 추적하는 Tracking 알고리즘 구현하기

[역할]

Roboflow를 사용한 Data생성, 이미지 라벨링(Bounding box)
Colab 환경에서 API를 사용해 Roboflow Data 접근
193개의 캐릭터 모션 사진을 사용해 YOLOv8 모델 Fine-Tuning
Fine-Tuning한 YOLOv8 + Re-ID + BOTSORT를 사용해 나만의 캐릭터 Tracking 알고리즘 구현

[사용 기술]

언어: Python
프레임워크: Torch, ultralytics
API: Roboflow
라이브러리: BOXMOT, cv2, IPython
서버: Colab
개발 환경: Colab V100, VRAM 16G

C++ 코드 간 유사성 판단[팀]

2024.03.04 - 2024.04.01

Github: https://github.com/chahanyeong/cpp-code-similarity

‘’Graphcodebert, Codebert-mlm 앙상블로 리더보드 5등 달성’’

[목적]

25만개의 C++ 코드 파일을 활용해 C++ 코드 간 유사성을 판단하는 알고리즘 구현

[인원]

2명 - AI 엔지니어 2명

[역할]

총 360만 행의 자연어 데이터 Fine-Tuning으로 98.479%의 분류 정확도 달성
효과적인 코드 비교를 위해 코드 파일 내부의 주석, 전처리기 구문 제거 및 치환
약 1억 2000만 행의 훈련 데이터 중 최적의 훈련 데이터 샘플링을 위해 BM25 알고리즘과 Random sampling 사용
Graphcodebert 모델과 C++ 코드로 Pre-trained된 Codebert-base-mlm 모델 사용
두 모델 결과의 Hard Voting을 통해 모델 성능 기존 대비 0.534% 향상

[사용 기술]

언어: Python
프레임워크: Torch
라이브러리: Transformers, Scikit-learn, Pandas
서버: Colab, Google Drive
개발 환경: Colab A100, VRAM 40G

[성과]

DACON 주관 코드 유사성 판단 시즌2 AI 경진대회 수상(리더보드 5등)

Deep Fake 영상 판별 모델 개발[팀]

2023.10.21 - 2023.12.01

Github: https://github.com/chahanyeong/Detection-deepfake-video

‘’꼼꼼한 EDA를 통해 97.27%의 Deep Fake 영상 판별 달성’’

[목적]

7000개의 Deep Fake 영상 데이터를 활용해 3000개 영상의 Deep Fake 적용 여부 판단 알고리즘 구현

[인원]

4명 - 백엔드 1명, AI 엔지니어 2명, AI전공 학부생 1명

[역할]

Xception, EfficientNet모델을 활용한 Deep Fake 영상 판별 알고리즘 구현
EfficientNet 대비 약 10% 향상된 결과를 보인 Xception 모델 선택
EDA를 통해 훈련 데이터 중 Deep Fake 영상에서 Face swap이 Facial Expression보다 많이 적용됨 확인
Real 영상과 Fake 영상의 평균 프레임 길이가 약 4배 정도 차이남을 확인하고 훈련 이미지의 Data balancing, Augmentation 수행
Training 이미지 중 Face 부분이 두드러지는 이미지가 많아 MTCNN을 사용해 중심 보정 및 얼굴 부분을 Crop 해 새롭게 전처리
구축한 데이터를 이용해 Xception모델 Fine-Tuning한 결과 97.27%의 Deep Fake 영상 분류 정확도 달성

[사용 기술]

언어: Python
프레임워크: Keras, Tensorflow
라이브러리: cv2, MTCNN, Scikit-learn, Pandas
서버: Elice Cloud
개발 환경: NVIDIA A100, VRAM 16G 컴퓨터 4대

[성과]

국방부, 과학기술정보통신부 주관 2023 국방AI경진대회 후원기업상 수상(리더보드 6등)

해표면 물질 궤적 모의 및 예측[팀]

2023.09.06 - 2023.11.24

Github: https://github.com/chahanyeong/Predicting-the-movement-path-of-surface-water-substances/tree/main

PPT:

Oceantrio_compressed.pdf

‘’기상데이터를 이용해 다양한 통계론적 방법 적용”

[목적]

2005년 동해에 위치했던 31개의 표층 뜰개 궤적 모의 및 새로운 7개 뜰개의 궤적 예측

[인원]

3명 - 수학과 학부생 2명, 감염병 확산 수리모델링 연구원 1명

[역할]

DTW, Ward 연결방법 이용해 31개의 뜰개 궤적을 3종류로 군집화
오픈API를 활용해 31개 뜰개의 궤적에 해당하는 기상데이터 구축
격자 형식의 기상데이터에 Bilinear Interpolation를 적용해 특정한 경도, 위도의 기상데이터 생성
Pandas의 DataFrame 대신 Xarray 모듈을 사용해 다차원 기상데이터 접근 시간복잡도를 기존 대비 20% 감소시킴
XGBoost 모델을 사용해 단일 Step 예측의 반복으로 100일간의 뜰개 궤적 예측

[사용 기술]

언어: Python