My Job/Statistics for GMP

Big data(빅데이터)를 기반으로 한 공정 최적화 및 수율 개선 사례

AcubenS2 2022. 10. 1. 11:24
반응형

Merck Optimizes Manufacturing With Big Data Analytics

요즘 IoT, Bigdata, Machine learning, Deep learning 등 Data를 기반으로 한 활동들의 여러가지 장점들이 확인 되었으며, 이를 통해 많은 개선을 이루어 내고 있다.

 

나는 제약 업계에 종사하면서 수없이 쌓이고 있는 이런 Big data를 사용하여 어떻게 공정을 개선할 수 있을지 많은 관심을 하지고 학습을 하고 있으며, 해외의 우수 사례를 확인하고 있다.

 

오늘은 이 중 좋은 사례를 아래와 같이 함께 공유 하고자 한다.

 

모든 종류의 의약품을 생산하는 것은 비용이 많이 들고, 규제가 많은 노력이지만 백신을 생산하는 것은 특히 쉽지 않은 일이다.

 

백신에는 바이러스가 포함되어있으며, 해당 바이러스가 변형되어 사람에게 면역력을 제공하지만 실제 질병은 발생하지 않은 상태(치료 목적이 아닌 예방용)이므로 제조 공정의 모든 단계에서 정확한 조건에서 처리해야 하며, 백신은 보관방법이 까다롭기 떄문에 (-8에서 1년이상 보관해야 할 수도 있다.) 규제기관에서 승인한 제조 공정과 약간의 차이가 있더라도 제품은 폐기를 해야 한다.

 

Merck & Co.의 정보기술(IT) 부사장인 George Llado 는 "한 부분을 얻으려면 세 부분이 필요할 수 있으며, 우리는 실수로 인해 수억 달러의 매출 손실이 발생할 수 있다."라고 말한다.

 

지난 2012년 여름, George Llado는 특정 백신에 대한 폐기율이 평소보다 높은 것을 확인 했다.

 

George Llado 연구팀은 백신의 낮은 수율에 대한 원인을 조사하였으며, 이는 시간이 많이 소요되는 스프레드시트 기반 분석의 일반적인 조사 접근 방식을 사용 했다. Data는 각 배치를 태그하고 추적하는 작업장의 공정 이력 시스템이 포함되었드며, 유지보수 시스템에는 지원설비 서비스 날짜 및 교정 등 설정이 상세하게 설명되어 있다. 건물 관리 시스템(BMS)은 각 공장의 여러 위치에서 공기 압력, 온도 및 기타 값을 분 단위로 샘플링 하였다.

 

이질적인 시스템의 모든 데이터를 정렬하고 이상 징후를 발견하는 데는 스프레드시트 기반 접근방식을 사용하여 몇 달이 걸렸고 저장 및 메모리 제한은 연구자들이 한 번에 한 두 개 정도만 볼 수 있음에 따라 Merck의 director of manufacturing advanced analytics and innovation 인 Jerry Megaro는 더 나은 방법을 찾기로 결심했다.

 

2013년 초까지 Merck 팀은 대규모로 확장 가능한 분산 관계형 데이터베이스를 실험하고 있었다. 그러나 Llado와 Megaro가 MRL(Merck Research Laboratories) 팀에 클라우드 기반 Hadoop 컴퓨팅을 제공할 수 있다는 것을 알게 되었을 때, 그들은 진행 방향을 변경 하기로 결정했다.

 

Amazon Web Services에서 실행되는 Hortonworks Hadoop 배포를 기반으로 구축된 MRL의 Merck Data Science 플랫폼은 schema-on-read 접근 방식을 지원하므로 분석에 더 적합한 것으로 밝혀졌다. 그 결과, 시간이 많이 걸리고 비용이 많이 드는 ETL 프로세스로 변환하지 않고도 16개의 서로 다른 소스의 데이터를 분석에서 사용할 수 있었다.

 

Llado는 "실험실, 공정, 환경, 시스템 등 한 가지 백신에서 모든 데이터를 추출해 data lake에 떨어뜨렸다"고 말한 후 Megaro팀은 불과 3개월 내에 생산 수율 변동에 대한 결정적인 답을 내놓을 수 있었다.

2013년 7월 첫 달에는 클라우드 기반 플랫폼의 파티션에 데이터를 로드했고, MapReduce, Hive, advanced dynamic time-warping 기법을 사용하여 배치 ID, 플랜트 장비 ID, 타임 스탬프와 같은 공통 메타데이터 치수를 중심으로 데이터 세트를 집계하고 정렬했다.

 

두 번째 달에, 분석가들은 R 기반 분석을 사용하여 만들어진 모든 백신을 도표화하고 군집화했다. 주목할 만한 패턴을 포착한 팀은 R을 사용하여 조사 히스토그램을 제작하고 플롯을 분산시켰으며, Hive와 함께 저수익 생산에 관련된 요인에 대한 가설을 수립했다.

 

이 팀은 민첩한 개발 접근법을 사용하여 매일 데이터 탐색 목표를 설정했지만 특정 가설을 뒷받침하는 확실한 데이터를 찾지 못하면 그날 오후까지 방향을 변경 할 수 있었다. 3개월째에 연구팀은 수율 인자에 대한 선도적 이론을 증명하고 반증하기 위해 수많은 역사적 데이터를 시험하는 모델을 개발했다.

 

150억번의 계산과 550만 개 이상의 배치 대 배치 비교를 통해, merck는 백신 생산의 발효 단계의 특정 특성이 최종 정제 단계에서 수율과 밀접하게 연관되어 있음을 발견했다. "그것은 매우 연관성이 높았고, 우리는 수량화해서 구체적인 발효 성능 특성이 매우 중요하다는 것을 증명하는 모델을 고안해냈다." 라고 Megaro가 말했다.

 

좋은 소식은 이러한 발효 특성을 제어할 수 있다는 것이지만, merck는 IT가 생산 환경에 어떤 변화를 도입하기 전에 테스트 랩에서 이를 증명해야 한다는 것이다. 그리고 만약 어떤 공정 변경이 중요한 것으로 간주된다면, merck는 백신의 제조 과정을 규제 기관과 함께 다시 검토를 해야 할 것이다.

 

이번 사례가 거의 하나의 백신을 위해 해결된 상황에서 merck는 이 교훈을 이르면 올해 판매 승인을 받을 것으로 예상되는 제품의 변경에 적용하고 있다. 그리고 제조에 대한 통찰력과 새로운 빅데이터 분석 접근법을 바탕으로 Merck는 현재 개발 중인 다른 백신의 생산을 최적화할 계획이다. Merck에 따르면, 그들은 모두 잠재적으로 생명을 구할 수 있는 제품이며, 새로운 데이터 분석 접근법은 효율적인 제조와 더 풍부한 공급을 보장하는데 있어서 큰 진전을 보이는 것이 분명하다.

 

나는 상기의 우수 사례를 기반으로 제약 공정의 최적화를 위해 프로젝트를 진행 중에 있으며, 곧 성공적인 결과를 얻으리라 믿는다.

반응형