Chemistry-informed machine learning: Using chemical property features to improve gas classification performance
Yeram Kim, Chiehyeon Lim, 이정혜, Sungil Kim, Sewon Kim, Dong-Hwa Seo (2023) · chemometrics-and-intelligent-laboratory-systems
Chemistry-informed ML — domain knowledge (gas sensor selectivity + chemical properties) 을 ML 의 feature 로 통합. 기존 feature engineering 이 sensor response data 자체 에만 의존한 한계를 극복. 2 모듈 framework: (1) raw sensor response → chemical property features 예측, (2) raw + chemical features 결합 → gas classification. 도메인 지식의 체계적 ML 통합 사례.
- RQ: 가스 sensor 의 raw response 외 chemical property features (sensor selectivity 결정) 를 ML 에 통합하면 gas classification 성능 향상?
- 방법론: 2 모듈 — (1) Sensor response → chemical property prediction, (2) Concatenated features → gas classification
- 데이터: 가스 sensor 응답 데이터 + chemical property 도메인 지식
- 주요 발견: (1) 2 모듈 framework 가 single-module baseline 대비 성능 개선. (2) Chemical property features (predicted from sensor data) 가 추가 predictive info. (3) Domain knowledge 의 체계적 ML 통합 방법론.
- 시사점: 가스 sensor 외 도메인 지식 활용 가능한 어떤 분류 문제 에도 일반화. ML 과 도메인 전문가 협업 의 patterns.

요약
이 paper 는 이정혜 의 *3 기 SNU TEMEP 시기 의 방법론 + 도메인 응용. Yeram Kim + Chiehyeon Lim (UNIST) + UNIST 화학 라인 (sewon, dong-hwa) 와 협업. Chemistry-informed ML 이라는 physics-informed ML 의 화학 변종.
방법론적 핵심: 2 모듈 architecture.
- Module 1: Sensor response → chemical property prediction. Sensor 가 직접 측정 못하는 chemical property (e.g. dipole moment, molecular weight, vapor pressure) 를 sensor data + domain knowledge 으로 estimate. Regression model.
- Module 2: Concatenated features (raw + predicted chemical property) → gas classification. Classifier (RF, NN 등).
Domain knowledge 의 역할: sensor selectivity 가 gas species 의 chemical property 에 의존. 따라서 chemical property 가 unobserved 변수 지만 important. Domain expert 가 이를 식별해 ML 에 통합.
핵심 발견: 2 모듈 framework 가 single-module (raw sensor only) baseline 대비 classification accuracy 개선. Once trained, 두 모듈이 자동 gas classification — practical deployment 가능.
이정혜 의 연구 궤적 안에서 이 paper 는 3 기 응용 다변화 + 방법론 (domain-informed ML) 라인. Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis (NIR 분광 + 통계) 의 화학 도메인 후속.
핵심 결과
| Approach | 성능 |
|---|---|
| Raw sensor (single-module) | baseline |
| Chemistry-informed (2-module) | 개선 |
- Domain knowledge → predicted chemical features → 추가 predictive info
- Generalizable to any classification with domain knowledge
방법론 노트
2-module framework:
Module 1 (Property Prediction):
Input: raw sensor response x
Output: predicted chemical properties ẑ_chem
Loss: ||ẑ_chem - z_chem_true||²
Module 2 (Classification):
Input: [x, ẑ_chem] (concatenated)
Output: gas class ĉ
Loss: cross-entropy
식별 가정: (i) Chemical property 가 sensor response 로 예측 가능, (ii) Predicted properties 의 추가 informativeness, (iii) Domain knowledge 의 정확한 chemical property 식별.
연구 계보
이 paper 는 (i) Karniadakis et al. (2021) physics-informed ML 정통, (ii) Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis (분광 + 통계) 직접 선행, (iii) Gas sensor + ML 라인 — 의 결합. 이정혜 의 연구 궤적 3 기 응용 + 방법론 다변화.
See also
- 이정혜
- Yeram Kim
- Chiehyeon Lim
- chemistry-informed-ml
- gas-sensor
- domain-knowledge-ml
- chemometrics-and-intelligent-laboratory-systems
- Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis
인접 그래프
- 인물 6
- 방법론 1
- 논문 2