티스토리 뷰

사이드 프로젝트/🩺 바디토리 : 건강기록 및 병원추천 웹서비스

[3일차 회고] 데이터셋 및 모델 탐색, 크롤링

2022. 11. 16. 15:22

프로젝트 주제를 결정하고 역할을 분담하는데 5명이 모두 프론트엔드 개발자로 취업을 희망하는 사람들이다보니 

포트폴리오에 쓸 프론트엔드로써의 프로젝트가 필요해서 프론트엔드는 5명이 골고루 나눠서 작업하되 

3명은 백엔드를 맡고, 2명은 인공지능을 맡기로 했다.

 

나는 인공지능 파트를 맡았는데 그 이유는 프로젝트 기획을 내가 했기 때문에

딥러닝 모델이 어떻게 동작해야하고, 어떤 결과를 내야할지, 어떤 데이터셋이 필요한지를 내가

가장 잘 이해하고 있어서 인공지능 파트를 내가 리드하기로 했다.

 

 

 

딥러닝 모델에 어떤 기법을 써야할지와 같은 구체적인 방법들은 오피스아워(현업 개발자 코치님과 질의응답 시간)를 통해 코치님께 많은 도움을 받았는데 모델 구현보다 힘들었던 것은 모델을 학습시키기에 적당한 데이터셋을 찾는 일이었다.

 

우리는 특정 증상에 대한 진료과목이 라벨링된 데이터가 필요했는데 증상-질병에 대한 외국 데이터는 있어도 

증상-진료과목에 대한 데이터는 거의 없었고, 캐글에서는 관련한 데이터셋들이 왕왕 있었지만

영어라서 바로 가져다 쓰기 어려움이 있었고 번역 등의 시간이 많이 소요되는 전처리가 필요했다. 

 

그나마 있는 영어로 된 증상-질병에 대한 데이터셋도 우리 서비스에 적용하기엔 부적합한 것들이라

데이터셋 때문에 주제를 바꿔야되나 고민도 헀다.

 

그치만 이미 디자인도 하고 있었고 다른 마땅한 주제도 안떠올라서 계속 데이터셋을 찾아 헤맸다. 

질병, 증상, 예측, 질환, 데이터셋, 분류 등등을 다양한 단어들을 조합해서 다양한 구글링을 하던 차에

희귀질병 증상 관련한 논문을 발견했는데 해당 논문에서 질병의 증상에 관한 참고 데이터로

서울대학교병원의 의학정보를 크롤링해서 썼다는 것을 발견했다.

 

서울대학교병원에서 제공하는 N의학정보라는 페이지를 들어가보니 질병들에 대해 정리되어있고

각 질병 페이지에는 간단한 설명, 진료과, 관련 신체기관, 관련 증상이 작성되어있었다.

 

진짜 우리가 딱 원하는 내용이라 더이상 데이터셋을 찾는데 시간을 쓰기보단 이걸 크롤링해서

직접 데이터셋을 만들고 모델에 학습을 시켜서 쓸만한 데이터셋이 될지 판단해보기로 했다.

 

페이지url에 쿼리가 없어서 크롤링을 헤매었는데 이것저것 찾아보니 payload로 받고있는 쿼리스트링값이 있었다.

 

 

 

이렇게 크롤링을 시도해서 성공했고, 다른 자료도 검색해보던 중에 네이버지식백과에서 

서울대의학정보를 정리해놓은 것이 있길래 그것도 한번 더 크롤링을 해서 추가적인 데이터셋을 만들었다. 

(크롤링은 처음이라 제대로 될까 싶었는데 BeautifulSoup를 사용하니 생각보다 쉽게 성공해서 다행이었다. 😣)

 

크롤링 처음 해보는데 for문을 너무 많이 써서 그런지 뭔가 생각보다 되게 오래걸렸다. 40분? 

이제 여기서 질병인 것만 뽑아서 전처리하고 이것저것 분석해보는거 내일 해보면 될듯..! 

 

모델은 증상을 진료과목으로 라벨링해서 분류하도록 학습시키면 되지않을까?

 

 

 

 

 

+)

디자인 컨셉 설정

밝음? 차분?

 

반응형
프로필사진
개발자 삐롱히

프론트엔드 개발자 삐롱히의 개발 & 공부 기록 블로그