Skip to content

✅ 의료 데이터를 활용한 챗봇과 다양한 파이프라인을 제작합니다.

Notifications You must be signed in to change notification settings

jms0522/Medical-project

Repository files navigation

🖥️ Data Egineering Project


의료 이미지

📕 빅데이터 기반 의료 AI 서비스 (가제 : Dr.RC)


📌 주요 기능 (Description)

📗 증상을 채팅으로 상담해 병(결과)을 도출하고 결과에 따른 다양한 서비스 운용. ✓

📗 위치 기반 병원, 약국 추천 / 약 성분 조회 등. ✓

📗 증상 별 병원 진료과 안내 기능. ✓


📌 부가 기능

📗 예상 진료비 예측, 계산.

📗 실시간 상담 내용 중 가장 많은 증상, 병명 등을 조회해서 실시간 랭킹.

📗 날씨나 다른 환경적인 요인에 따른 유의 할 병과 그에 대한 증상 조회.

📗 병명을 검색하면 그에 대한 증상을 백과사전 처럼 만들어 간단하게 자가진단 할 수 있는 기능.

✓ : 중요도 높은 항목.

서비스의 내용은 상황에 따라 변동이 있을 수 있음.

✅ 주제 선정 이유

" 네이버 지식인에 1년간 자신의 증상을 질문하는 건 수만 15만 건이 넘는다는 논문을 확인하였고,

Electronic patient message는 의학적 지식을 묻는 경우도 높다.

그럼에도 의료 소비자의 정보 획득과 판단에 도움을 줄 수 있는 인공지능과 플랫폼에 대한 관심이 상대적으로 적다.

네이버 지식인의 질문 건수를 판단하건대 의료소비자들에게 의료 정보 적합한 의료 정보의 제공이 필요하다는 반증이기도 하여

소비자가 간단하게 또 편리하게 자신의 증상을 입력해 적절한 의료 정보 제공을 받을 수 있는 플랫폼을 구축하고자 한다.

이로써 의료 소비자의 정보 획득과 판단에 많은 도움을 줄 수 있기를 기대한다. "


✅ 기대 효과

  • patient message에 보조적으로 활용할 가능성이 높다.

  • 불필요한 의료 리소스의 낭비를 줄일 수 있다.

  • 병원 접근성이 떨어지는 취약 집단에게 chat bot을 통한 의료 형평성을 증대할 수 있다.

  • 즉각적인 반응을 얻을 수 있어, 치료 순응도, 복용 순응도를 증대 시킬 수 있을 것이라 기대한다.


⏰ 개발 기간

📅 24.02.07 ~ 24.03.24


👥 팀원 구성 및 소개 (Introduce)

👭 팀명 : "/.bashrc"

  • GitHub 🤷🏻‍♂️ 배민석 / 팀장

  • GitHub 💁🏻‍♂️ 윤성철

  • GitHub 🍺 홍승표

  • GitHub 💇🏻‍♂️ 장민수


⚙️ 개발 환경 (Environment)

  • AWS EC2

  • m5.xlarge (Main server)

  • t2.xlarge (Sub server)

  • mac os m2 (16, 512) * 2

  • mac os m3 (16, 512) * 1

  • Hardware: We utilized an A100 * 1 for training our model


💻 개발 version

  • 냉무

자세한 버전은 requirment 파일로 기재.


👨🏻‍💻 사용 기술


🗣️ 협업 도구


⚒️ 개발 툴


🏛️ 설계

📗 WBS

  • WBS

  • 대략적인 일정과 todo 리스트를 기재.

📗 GitHub Project Loadmap


📗 System Architecture

📗 Web Architecture

📗 MLOps Architecture


✓ 한계점

❗️프로젝트를 진행 전 생각해 보는 한계점



  • 데이터 셋의 질의응답은 실제 진료 환경과 매우 다를 수 있다.

  • 환자에 대한 사전 정보가 없어 결과의 신뢰성이 떨어진다.

  • 의료 AI의 오류에 대한 철저한 검증 해결이 필요하다.

  • 결과에 대한 신뢰성이 부족하다.

❗️프로젝트를 진행하면서 느끼는 한계점



  • open source model로 기업용 api의 성능을 뽑아내기 매우 어렵다. (제한된 환경, 리소스)

  • 의료 데이터는 개인 정보가 포함된 만큼 데이터를 구하기 매우 어렵다.

  • 결과에 신뢰성을 줄 수 있는 장치가 필요하다. (적어도 5명의 전문가가 답변을 평가하는 등등 ..) + 이 부분은 더 많은 아이디어가 필요하다.

  • LLM model hallucination 문제 (RAG 모델로 해결이 가능할 듯)

  • RAG model을 사용한다면 어떠한 외부 데이터로 vector store를 만들어 참조하게 할 지에 대한 문제 ( 신뢰성 있는 데이터가 필요 )

🔗 참고

hugging face solar model
ko_LLM leaderboard
한국빅데이터학회지 : 환자의 주관적 증상 텍스트에 관한 논문
Llama2 기반 korean model
그외 더 많은 참고자료


📞 문의


😀 vote


📅 Daily Scrum


- [회의기록](#68)