Skip to content

aaoiii/Projects

Repository files navigation

Projects

1. 🎨 도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회


🖌️ 공모전 소개

  • AI를 활용해 시트, 마루, 벽면, 도배와 같은 건축의 핵심 자재들의 품질 관리와 하자 판단 과정을 더욱 정교하고 효율적으로 만들어, 이러한 자재들의 관리 및 운용의 질을 향상시키고자 함
  • 실제 현장에서 발생할 수 있는 복잡한 상황에 대응하고, 고객의 문의에 신속하고 정확하게 답변할 수 있는 시스템을 구축
  • NLP(자연어 처리)기반의 QA (질문-응답) 시스템을 통해 도배하자와 관련된 신속하고 정확한 질의응답 처리 능력을 갖춘 AI 모델 개발

🖌️ 데이터셋

image


🖌️ 데이터 수집 및 전처리

  • 데이터 수집 : 공모전 주최측의 train, test 데이터 사용

  • 데이터 전처리 :

    • for문을 활용해 질문과 답변이 1:1 대응이 되도록 데이터 포맷팅
    • 데이터셋의 질문과 답변을 모델의 입력으로 사용하기 위해 텍스트를 토큰화하고 숫자로 변환
  • 데이터 증강 :

    train data 양을 늘려 모델의 정확도를 개선하기 위해 데이터 증강

    1차적으로 전체 데이터 증강(MLM) 후, 상대적으로 데이터 수가 적은 카테고리의 데이터만 한번 더 증강(shuffle)

    • MLM data augmentation : Masked Language Modeling 방식으로 학습 모델을 학습한 후에 새로운 문장의 일부에 마스킹을 적용하고 인퍼런스를 적용해 마스킹된 부분에 알맞는 새로운 토큰을 후보로 생성
    • shuffle : 단어의 순서를 임의로 바꾸어 데이터 증강

[데이터 증강 전/후]

image


🖌️ 모델

  • koGPT : gpt-3 기반 한국어 언어 생성모델

    • 대규모의 한국어 데이터를 바탕으로 구축되었다는 점에서 성능이 높을 것이라고 예상하여 사용
    • 리더보드 Private Score : 0.6356
  • SOLAR 10.7B : 107억 파라미터를 가진 대규모 언어 모델

    • 거대언어모델(LLM)과 소형언어모델(SLM) 장점을 모두 갖추었다는 점에서 사용
    • 리더보드 Private Score : 0.7106
  • gemma-2b : 구글 오픈소스 AI 모델

    • 대회 진행 당시 발표된 모델로, 호기심에 해봤는데 성능은 좋지 않았음. 7B모델이 아닌 2B모델을 사용했기에 성능이 좋지 않은 것으로 추정
    • 리더보드 Private Score : 0.6141

2. AI vs Human 텍스트 판별 프로젝트

  • Ko-GPT, Ko-Electra, Bert, EiLLM 모델 활용
  • Ko-GPT 모델이 0.9606060606로 점수가 가장 높았음

3. 대한민국 식품사막화 현상 분석 및 AI를 활용한 해결방안 제언

  • 코로나로 인해 식품산업이 비대면으로 바뀜에 따라 심화된 대한민국의 식품 사막화 현상을 분석
  • 공공 데이터를 수집하여 피처를 선정하고, k 평균 클러스터링과 SOM 자기조직화 지도를 통해 군집화하여 1차 식품사막과 2차 식품사막 지역에서 세부적으로 분류
  • 각 군집별 특성을 파악하여 군집별로 식품사막 현황 대시보드 제작, 이동판매차 운영 최적화 등의 해결 방안을 제언함

4. 주식 가격 예측 프로젝트

  • 뉴스에서 감성지수를 추출하여 window 사이즈 크기별, 감성지수 포함 유무에 따라 lstm 모델을 학습 후 정확도 확인

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors