A Multi-stage Data Mining Approach for Liquid Bulk Cargo Volume Analysis based on Bill of Lading Data


Suhyeon Kim, Wonho Sohn, Dongcheol Lim, 이정혜 (2021) · Expert Systems with Applications · DOI ↗

항만 액체 벌크 화물 (Liquid Bulk Cargo, LBC) 물동량 분석3 단계 프레임워크 — (1) 품목 segmentation (text-based), (2) Exploratory volume analysis, (3) Manifold learning + deep learning 시계열 예측. Bill of Lading 데이터 활용. 품목 / 부속품 카테고리 수준에서 34% / 18% 정확도 개선 vs 통계 baseline. 이정혜3 기 (TEMEP) 응용 다변화 — 항만 물류 도메인 진입.

  • RQ: Bill of Lading (선하증권) 데이터에서 LBC 물동량 의 trend 분석 + 예측이 가능한가? 어떻게 품목 정보 를 효과적으로 활용할 수 있는가?
  • 방법론: 3 단계 — (1) BL text 기반 item segmentation (category + subcategory), (2) Geography + timeline exploratory analysis, (3) Manifold learning + deep learning time series prediction
  • 데이터: Bill of Lading 데이터 (텍스트 + 선적 시간 + 항만 정보)
  • 주요 발견: (1) 카테고리 수준 정확도 +34%, 부속품 수준 +18% vs baseline (ARIMA 등 통계 모형). (2) BL text 의 innovative item segmentation — 기존 시스템이 제공 못하는 부속품 (subcategory) 식별. (3) Manifold learning (e.g. t-SNE, UMAP) + LSTM 시너지.
  • 시사점: Smart Port 디지털 전환의 정량 분석 기반. 항만 운영자에게 품목별 + 지역별 예측 제공. 일반 cargo 외 다른 물류 시스템 응용 가능.

Bill of Lading 데이터 기반 LBC 물동량 분석 3 단계 (segmentation → exploratory → prediction) 프레임 도식.

요약

이 paper 는 이정혜2 기 → 3 기 전환 시기의 응용 도메인 다변화 — 의료에서 항만 물류 로의 확장. Suhyeon Kim (W2V-LSA 의 같은 제 1 저자) 와의 협업. 이정혜 연구 궤적2 기 후반 / 3 기 초반 의 응용 작업.

방법론적 핵심은 3 단계 framework:

(i) Item segmentation — BL 의 item text (자유 텍스트) 에서 category + subcategory 추출. 기존 시스템 (HS code 등) 이 단순 category 만 제공 → 본 paper 는 NLP-driven subcategory 추가.

(ii) Exploratory volume analysis — 카테고리별 지역 (port-of-origin, destination) 분포 + 시간 (월별, 계절별) 패턴. 단순 통계 + 시각화.

(iii) Volume predictionManifold learning (t-SNE, UMAP 등) 으로 고차원 features 의 저차원 latent representationdeep learning time series (LSTM, GRU) 예측. ARIMA, exponential smoothing 등 baseline 대비 우월.

핵심 발견: 카테고리 수준 (e.g. 화학제품, 석유제품) 예측 정확도 +34% (vs baseline); 부속품 수준 (e.g. 메탄올, 가솔린) +18%. 부속품 수준이 낮은 이유 — sample 부족 + 더 큰 변동성. Smart port 의 operational decision 지원에 직접 활용 가능.

이정혜연구 궤적 안에서 이 paper 는 3 기 응용 다변화의 첫 사례. 후속 Inter-country trade similarity graph-based long short-term memory for port throughput prediction (항만 무역 그래프 + LSTM) 으로 항만 물류 라인 발전.

핵심 결과

수준정확도 개선 (vs ARIMA baseline)
카테고리 (e.g. 화학, 석유)+34%
부속품 (e.g. 메탄올, 가솔린)+18%
  • Manifold learning + deep learning 시계열 결합
  • BL text 의 NLP-driven subcategory
  • Smart Port digital transformation 지원

방법론 노트

3 단계 framework:

Stage 1: Item Segmentation
  Input: BL item text (free text)
  Process: NLP (tokenization, stemming) → category mapping + subcategory clustering
  Output: (category, subcategory) for each shipment

Stage 2: Exploratory Volume Analysis
  Input: Stage 1 output + timestamp + port info
  Process: Time series + geographic statistics + visualizations
  Output: Patterns identified

Stage 3: Volume Prediction
  Input: Stage 1+2 output, multivariate time series
  Process: Manifold learning (t-SNE/UMAP) → latent representation → LSTM/GRU
  Output: Volume forecast (category + subcategory levels)

식별 가정: (i) BL text 의 informativeness, (ii) Manifold learning 의 유의 정보 보존, (iii) deep learning 의 충분한 training data.

연구 계보

이 paper 는 (i) Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis (text-based mining) 자매, (ii) Maaten & Hinton (2008) t-SNE 본가, (iii) Hochreiter & Schmidhuber (1997) LSTM — 의 결합. 이정혜연구 궤적 3 기 응용 다변화의 첫 사례.

See also

인접 그래프

1-hop 이웃 8
  • 인물 4
  • 수록처 1
  • 논문 3
이정혜Dongcheol LimSuhyeon KimWonho SohnExpert Systems wi… A Multi-stage Data Mi…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동