A Multi-stage Data Mining Approach for Liquid Bulk Cargo Volume Analysis based on Bill of Lading Data
Suhyeon Kim, Wonho Sohn, Dongcheol Lim, 이정혜 (2021) · Expert Systems with Applications · DOI ↗
항만 액체 벌크 화물 (Liquid Bulk Cargo, LBC) 물동량 분석 의 3 단계 프레임워크 — (1) 품목 segmentation (text-based), (2) Exploratory volume analysis, (3) Manifold learning + deep learning 시계열 예측. Bill of Lading 데이터 활용. 품목 / 부속품 카테고리 수준에서 34% / 18% 정확도 개선 vs 통계 baseline. 이정혜 의 3 기 (TEMEP) 응용 다변화 — 항만 물류 도메인 진입.
- RQ: Bill of Lading (선하증권) 데이터에서 LBC 물동량 의 trend 분석 + 예측이 가능한가? 어떻게 품목 정보 를 효과적으로 활용할 수 있는가?
- 방법론: 3 단계 — (1) BL text 기반 item segmentation (category + subcategory), (2) Geography + timeline exploratory analysis, (3) Manifold learning + deep learning time series prediction
- 데이터: Bill of Lading 데이터 (텍스트 + 선적 시간 + 항만 정보)
- 주요 발견: (1) 카테고리 수준 정확도 +34%, 부속품 수준 +18% vs baseline (ARIMA 등 통계 모형). (2) BL text 의 innovative item segmentation — 기존 시스템이 제공 못하는 부속품 (subcategory) 식별. (3) Manifold learning (e.g. t-SNE, UMAP) + LSTM 시너지.
- 시사점: Smart Port 디지털 전환의 정량 분석 기반. 항만 운영자에게 품목별 + 지역별 예측 제공. 일반 cargo 외 다른 물류 시스템 응용 가능.

요약
이 paper 는 이정혜 의 2 기 → 3 기 전환 시기의 응용 도메인 다변화 — 의료에서 항만 물류 로의 확장. Suhyeon Kim (W2V-LSA 의 같은 제 1 저자) 와의 협업. 이정혜 연구 궤적 의 2 기 후반 / 3 기 초반 의 응용 작업.
방법론적 핵심은 3 단계 framework:
(i) Item segmentation — BL 의 item text (자유 텍스트) 에서 category + subcategory 추출. 기존 시스템 (HS code 등) 이 단순 category 만 제공 → 본 paper 는 NLP-driven subcategory 추가.
(ii) Exploratory volume analysis — 카테고리별 지역 (port-of-origin, destination) 분포 + 시간 (월별, 계절별) 패턴. 단순 통계 + 시각화.
(iii) Volume prediction — Manifold learning (t-SNE, UMAP 등) 으로 고차원 features 의 저차원 latent representation 후 deep learning time series (LSTM, GRU) 예측. ARIMA, exponential smoothing 등 baseline 대비 우월.
핵심 발견: 카테고리 수준 (e.g. 화학제품, 석유제품) 예측 정확도 +34% (vs baseline); 부속품 수준 (e.g. 메탄올, 가솔린) +18%. 부속품 수준이 낮은 이유 — sample 부족 + 더 큰 변동성. Smart port 의 operational decision 지원에 직접 활용 가능.
이정혜 의 연구 궤적 안에서 이 paper 는 3 기 응용 다변화의 첫 사례. 후속 Inter-country trade similarity graph-based long short-term memory for port throughput prediction (항만 무역 그래프 + LSTM) 으로 항만 물류 라인 발전.
핵심 결과
| 수준 | 정확도 개선 (vs ARIMA baseline) |
|---|---|
| 카테고리 (e.g. 화학, 석유) | +34% |
| 부속품 (e.g. 메탄올, 가솔린) | +18% |
- Manifold learning + deep learning 시계열 결합
- BL text 의 NLP-driven subcategory
- Smart Port digital transformation 지원
방법론 노트
3 단계 framework:
Stage 1: Item Segmentation
Input: BL item text (free text)
Process: NLP (tokenization, stemming) → category mapping + subcategory clustering
Output: (category, subcategory) for each shipment
Stage 2: Exploratory Volume Analysis
Input: Stage 1 output + timestamp + port info
Process: Time series + geographic statistics + visualizations
Output: Patterns identified
Stage 3: Volume Prediction
Input: Stage 1+2 output, multivariate time series
Process: Manifold learning (t-SNE/UMAP) → latent representation → LSTM/GRU
Output: Volume forecast (category + subcategory levels)
식별 가정: (i) BL text 의 informativeness, (ii) Manifold learning 의 유의 정보 보존, (iii) deep learning 의 충분한 training data.
연구 계보
이 paper 는 (i) Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis (text-based mining) 자매, (ii) Maaten & Hinton (2008) t-SNE 본가, (iii) Hochreiter & Schmidhuber (1997) LSTM — 의 결합. 이정혜 의 연구 궤적 3 기 응용 다변화의 첫 사례.
See also
- 이정혜
- Suhyeon Kim
- Wonho Sohn
- manifold-learning
- deep-learning-time-series
- liquid-bulk-cargo
- Expert Systems with Applications
인접 그래프
- 인물 4
- 수록처 1
- 논문 3