Chemistry-informed machine learning: Using chemical property features to improve gas classification performance


Yeram Kim, Chiehyeon Lim, 이정혜, Sungil Kim, Sewon Kim, Dong-Hwa Seo (2023) · chemometrics-and-intelligent-laboratory-systems

Chemistry-informed MLdomain knowledge (gas sensor selectivity + chemical properties) 을 ML 의 feature 로 통합. 기존 feature engineering 이 sensor response data 자체 에만 의존한 한계를 극복. 2 모듈 framework: (1) raw sensor response → chemical property features 예측, (2) raw + chemical features 결합 → gas classification. 도메인 지식의 체계적 ML 통합 사례.

  • RQ: 가스 sensor 의 raw response 외 chemical property features (sensor selectivity 결정) 를 ML 에 통합하면 gas classification 성능 향상?
  • 방법론: 2 모듈 — (1) Sensor response → chemical property prediction, (2) Concatenated features → gas classification
  • 데이터: 가스 sensor 응답 데이터 + chemical property 도메인 지식
  • 주요 발견: (1) 2 모듈 framework 가 single-module baseline 대비 성능 개선. (2) Chemical property features (predicted from sensor data) 가 추가 predictive info. (3) Domain knowledge 의 체계적 ML 통합 방법론.
  • 시사점: 가스 sensor 외 도메인 지식 활용 가능한 어떤 분류 문제 에도 일반화. ML 과 도메인 전문가 협업 의 patterns.

Chemistry-informed ML 의 2 모듈 (chemical property prediction + 가스 분류) 구조도.

요약

이 paper 는 이정혜 의 *3 기 SNU TEMEP 시기 의 방법론 + 도메인 응용. Yeram Kim + Chiehyeon Lim (UNIST) + UNIST 화학 라인 (sewon, dong-hwa) 와 협업. Chemistry-informed ML 이라는 physics-informed ML 의 화학 변종.

방법론적 핵심: 2 모듈 architecture.

  • Module 1: Sensor response → chemical property prediction. Sensor 가 직접 측정 못하는 chemical property (e.g. dipole moment, molecular weight, vapor pressure) 를 sensor data + domain knowledge 으로 estimate. Regression model.
  • Module 2: Concatenated features (raw + predicted chemical property) → gas classification. Classifier (RF, NN 등).

Domain knowledge 의 역할: sensor selectivity 가 gas species 의 chemical property 에 의존. 따라서 chemical propertyunobserved 변수 지만 important. Domain expert 가 이를 식별해 ML 에 통합.

핵심 발견: 2 모듈 framework 가 single-module (raw sensor only) baseline 대비 classification accuracy 개선. Once trained, 두 모듈이 자동 gas classification — practical deployment 가능.

이정혜연구 궤적 안에서 이 paper 는 3 기 응용 다변화 + 방법론 (domain-informed ML) 라인. Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis (NIR 분광 + 통계) 의 화학 도메인 후속.

핵심 결과

Approach성능
Raw sensor (single-module)baseline
Chemistry-informed (2-module)개선
  • Domain knowledge → predicted chemical features → 추가 predictive info
  • Generalizable to any classification with domain knowledge

방법론 노트

2-module framework:

Module 1 (Property Prediction):
  Input: raw sensor response x
  Output: predicted chemical properties ẑ_chem
  Loss: ||ẑ_chem - z_chem_true||²

Module 2 (Classification):
  Input: [x, ẑ_chem] (concatenated)
  Output: gas class ĉ
  Loss: cross-entropy

식별 가정: (i) Chemical property 가 sensor response 로 예측 가능, (ii) Predicted properties 의 추가 informativeness, (iii) Domain knowledge 의 정확한 chemical property 식별.

연구 계보

이 paper 는 (i) Karniadakis et al. (2021) physics-informed ML 정통, (ii) Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis (분광 + 통계) 직접 선행, (iii) Gas sensor + ML 라인 — 의 결합. 이정혜연구 궤적 3 기 응용 + 방법론 다변화.

See also

인접 그래프

1-hop 이웃 9
  • 인물 6
  • 방법론 1
  • 논문 2
이정혜Chiehyeon LimDong-Hwa SeoSewon KimSungil KimYeram Kim기계학습 Chemistry-informed ma…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동