Data Analyst
Reach Out
+82 1075416426
Seoul, Republic of korea
[email protected]
[email protected]
Certifications
SQLD
ADsP
컴퓨터활용능력 1급
GTQ 1급
GTQi 1급
About Me
안녕하세요. 사람들과의 소통을 좋아하는 데이터 분석가 차한영입니다.
- Python 기반의 데이터 분석을 수행하고 있습니다.
- 경쟁을 즐기는 분석가로 다양한 딥러닝 프레임워크를 사용하는 대회에 많은 관심이 있습니다.
- 교육봉사, 강사 등 여러 교육 활동을 데이터 공부와 병행하며 커뮤니케이션 능력을 키워왔습니다.
Projects
보스레이드중인 캐릭터 Tracking 알고리즘 구현[개인]
2024.03.15 - 2024.04.01
Github: https://github.com/chahanyeong/Maplestory-mycharacter_Tracking/tree/main
[목적]
- 보스레이드중인 자신의 캐릭터를 추적하는 Tracking 알고리즘 구현하기
[역할]
- Roboflow를 사용한 Data생성, 이미지 라벨링(Bounding box)
- Colab 환경에서 API를 사용해 Roboflow Data 접근
- 193개의 캐릭터 모션 사진을 사용해 YOLOv8 모델 Fine-Tuning
- Fine-Tuning한 YOLOv8 + Re-ID + BOTSORT를 사용해 나만의 캐릭터 Tracking 알고리즘 구현
[사용 기술]
- 언어: Python
- 프레임워크: Torch, ultralytics
- API: Roboflow
- 라이브러리: BOXMOT, cv2, IPython
- 서버: Colab
- 개발 환경: Colab V100, VRAM 16G
C++ 코드 간 유사성 판단[팀]
2024.03.04 - 2024.04.01
Github: https://github.com/chahanyeong/cpp-code-similarity
‘’Graphcodebert, Codebert-mlm 앙상블로 리더보드 5등 달성’’
[목적]
- 25만개의 C++ 코드 파일을 활용해 C++ 코드 간 유사성을 판단하는 알고리즘 구현
[인원]
[역할]
- 총 360만 행의 자연어 데이터 Fine-Tuning으로 98.479%의 분류 정확도 달성
- 효과적인 코드 비교를 위해 코드 파일 내부의 주석, 전처리기 구문 제거 및 치환
- 약 1억 2000만 행의 훈련 데이터 중 최적의 훈련 데이터 샘플링을 위해 BM25 알고리즘과 Random sampling 사용
- Graphcodebert 모델과 C++ 코드로 Pre-trained된 Codebert-base-mlm 모델 사용
- 두 모델 결과의 Hard Voting을 통해 모델 성능 기존 대비 0.534% 향상
[사용 기술]
- 언어: Python
- 프레임워크: Torch
- 라이브러리: Transformers, Scikit-learn, Pandas
- 서버: Colab, Google Drive
- 개발 환경: Colab A100, VRAM 40G
[성과]
Deep Fake 영상 판별 모델 개발[팀]
2023.10.21 - 2023.12.01
Github: https://github.com/chahanyeong/Detection-deepfake-video
‘’꼼꼼한 EDA를 통해 97.27%의 Deep Fake 영상 판별 달성’’
[목적]
- 7000개의 Deep Fake 영상 데이터를 활용해 3000개 영상의 Deep Fake 적용 여부 판단 알고리즘 구현
[인원]
- 4명 - 백엔드 1명, AI 엔지니어 2명, AI전공 학부생 1명
[역할]
- Xception, EfficientNet모델을 활용한 Deep Fake 영상 판별 알고리즘 구현
- EfficientNet 대비 약 10% 향상된 결과를 보인 Xception 모델 선택
- EDA를 통해 훈련 데이터 중 Deep Fake 영상에서 Face swap이 Facial Expression보다 많이 적용됨 확인
- Real 영상과 Fake 영상의 평균 프레임 길이가 약 4배 정도 차이남을 확인하고 훈련 이미지의 Data balancing, Augmentation 수행
- Training 이미지 중 Face 부분이 두드러지는 이미지가 많아 MTCNN을 사용해 중심 보정 및 얼굴 부분을 Crop 해 새롭게 전처리
- 구축한 데이터를 이용해 Xception모델 Fine-Tuning한 결과 97.27%의 Deep Fake 영상 분류 정확도 달성
[사용 기술]
- 언어: Python
- 프레임워크: Keras, Tensorflow
- 라이브러리: cv2, MTCNN, Scikit-learn, Pandas
- 서버: Elice Cloud
- 개발 환경: NVIDIA A100, VRAM 16G 컴퓨터 4대
[성과]
해표면 물질 궤적 모의 및 예측[팀]
2023.09.06 - 2023.11.24
Github: https://github.com/chahanyeong/Predicting-the-movement-path-of-surface-water-substances/tree/main
PPT:
Oceantrio_compressed.pdf
‘’기상데이터를 이용해 다양한 통계론적 방법 적용”
[목적]
- 2005년 동해에 위치했던 31개의 표층 뜰개 궤적 모의 및 새로운 7개 뜰개의 궤적 예측
[인원]
- 3명 - 수학과 학부생 2명, 감염병 확산 수리모델링 연구원 1명
[역할]
- DTW, Ward 연결방법 이용해 31개의 뜰개 궤적을 3종류로 군집화
- 오픈API를 활용해 31개 뜰개의 궤적에 해당하는 기상데이터 구축
- 격자 형식의 기상데이터에 Bilinear Interpolation를 적용해 특정한 경도, 위도의 기상데이터 생성
- Pandas의 DataFrame 대신 Xarray 모듈을 사용해 다차원 기상데이터 접근 시간복잡도를 기존 대비 20% 감소시킴
- XGBoost 모델을 사용해 단일 Step 예측의 반복으로 100일간의 뜰개 궤적 예측
[사용 기술]
- 언어: Python
- 라이브러리: Tensorflow, Scikit-learn, Xgboost, Cartopy, Seaborn, Scipy
- API: Copernicus Marine Service, CDS API
- 개발 환경: Intel i7 RAM 8G, NVDIA GeForce GTX 1050 VRAM 4G
[성과]
- 한국해양수산과학기술진흥원 주관 제 3회 해양과학 빅데이터 경진대회 종합 리더보드 7등 달성
Education
숭실대학교
2018.03 - 2024.02 (졸업)
수학과 전공 / 정보통계보험수리학과 복수 전공
- 선형대수, 미분방정식 등을 수강하여 AI, 알고리즘에 도움 되는 기초 기식 함양
- R, Python, SAS를 활용해 회귀분석, 군집분석, 차원축소 등 다양한 통계론적 분석 수행
- 이산, 연속 확률 분포의 종류와 관련된 통계량 증명 공부
Tableau 신병훈련소 21기
2023.10 - 2023.11 (수료)
- 매일 Tableau, Tableau prep을 활용해 주어진 데이터 시각화 수행
- 서버: Slack
SQL 알고리즘
2023.12 - 현재
