사용자 표현력 향상: Hike의 ML 기반 구어체 스티커 키보드
목차
Hike Limited의 기계 학습 팀 리더로서, 혁신적인 AI 기반 구어체 스티커 키보드 개발을 주도했습니다. 이 프로젝트는 힌글리시, 타밀 영어 및 다양한 언어 조합을 포함한 다국어 입력을 기반으로 지능적으로 스티커를 제안함으로써 사용자 표현을 혁신하는 것을 목표로 했습니다.
프로젝트 개요 #
우리의 목표는 다양한 언어 입력을 이해하고 반응할 수 있으며, 개별 사용자의 선호도와 상호작용을 기반으로 제안을 개인화하는 스마트 스티커 제안 시스템을 만드는 것이었습니다.
기술적 접근 #
핵심 기술 #
- 백엔드 개발 및 모델 훈련을 위한 Python
- 모델 개발 및 온디바이스 추론을 위한 TensorFlow 및 TensorFlow Lite
- 언어 이해를 위한 자연어 처리(NLP) 기술
- 데이터 저장 및 분석을 위한 BigQuery
- 워크플로우 오케스트레이션을 위한 Airflow
주요 기능 #
다국어 입력 처리: 혼합 언어 입력을 이해하고 해석할 수 있는 NLP 모델 개발.
맥락적 스티커 제안: 입력 텍스트와 맥락을 기반으로 관련 스티커를 제안하는 AI 모델 생성.
온디바이스 개인화: 온디바이스 학습 및 개인화를 위한 TensorFlow Lite 모델 구현.
연합 학습: 사용자 개인정보를 유지하면서 글로벌 모델을 업데이트하는 시스템 개발.
구현 과제 및 해결책 #
과제: 다양한 언어 조합을 정확하게 처리하기. 해결책: 방대한 다국어 데이터 코퍼스로 모델을 훈련시키고 고급 토큰화 기술을 구현했습니다.
과제: 모바일 기기에서 실시간 성능 보장하기. 해결책: TensorFlow Lite를 사용하여 모바일용 모델을 최적화하고 효율적인 캐싱 메커니즘을 구현했습니다.
과제: 개인화와 사용자 개인정보 보호 간의 균형 맞추기. 해결책: 중앙집중식 데이터 수집 없이 모델 개선을 가능하게 하는 연합 학습 기술을 구현했습니다.
개발 과정 #
데이터 수집 및 분석: BigQuery를 사용하여 사용자 상호작용 데이터를 수집하고 분석하여 스티커 사용 패턴을 이해했습니다.
모델 개발: TensorFlow를 사용하여 NLP 및 추천 모델을 반복적으로 개발하고 개선했습니다.
온디바이스 구현: TensorFlow Lite를 사용하여 모바일 기기용 모델을 최적화했습니다.
연합 학습 설정: 개인정보를 보호하면서 모델 업데이트를 위한 연합 학습 시스템을 설계하고 구현했습니다.
테스트 및 개선: 모델 성능과 사용자 만족도를 최적화하기 위해 광범위한 A/B 테스트를 수행했습니다.
결과 및 영향 #
- 플랫폼 전반에 걸쳐 스티커 사용량이 40% 증가했습니다.
- 이전 시스템에 비해 스티커 제안 관련성이 60% 향상되었습니다.
- 10개 이상의 다양한 언어 조합의 입력을 성공적으로 처리했습니다.
- 연합 학습을 통해 사용자 개인정보를 유지하면서 지속적인 모델 개선을 달성했습니다.
결론 #
Hike의 ML 기반 구어체 스티커 키보드 프로젝트는 사용자 표현과 참여를 향상시키는 AI의 잠재력을 보여줍니다. 고급 NLP 기술, 온디바이스 학습 및 연합 학습을 성공적으로 통합함으로써, 우리는 다양한 언어 입력을 이해할 뿐만 아니라 각 사용자에 맞춰 경험을 개인화하는 시스템을 만들었습니다.
이 프로젝트는 최첨단 ML 기술과 사용자 요구 및 개인정보 보호 문제에 대한 깊은 이해를 결합하는 힘을 보여줍니다. 우리가 이 기능을 계속 개선하고 확장함에 따라, 이는 혁신적이고 사용자 중심적인 커뮤니케이션 도구를 제공하려는 Hike의 노력의 핵심이 되고 있습니다.