[논문 리뷰] Think like a Scientist: Physics-guided LLM Agent for Equation Discovery

Explaining observed phenomena through symbolic, interpretable formulas is a fundamental goal of science. Recently, large language models (LLMs) have emerged as promising tools for symbolic equation di...

[논문 리뷰] Think like a Scientist: Physics-guided LLM Agent for Equation Discovery

[논문 리뷰] Think like a Scientist: Physics-guided LLM Agent for Equation Discovery

TL;DR

과학적 현상을 설명하는 수학 방정식을 데이터로부터 자동으로 발견하는 것은 오랜 난제입니다. KeplerAgent는 대규모 언어 모델(LLM)을 과학자처럼 사고하는 '에이전트'로 활용하는 새로운 프레임워크입니다. 이 에이전트는 데이터에 숨겨진 물리적 특성(예: 대칭성)을 먼저 파악하여 방정식의 형태에 대한 가설을 세우고, 이를 바탕으로 탐색 공간을 대폭 줄여 기존 기호 회귀(Symbolic Regression) 도구의 성능을 극대화합니다. 그 결과, KeplerAgent는 기존 방식보다 훨씬 높은 정확도로 물리 법칙을 발견했으며, 특히 노이즈가 많은 데이터에서도 강건한 성능을 보였습니다. 이는 LLM이 단순한 패턴 인식을 넘어, 과학적 추론과 도구 사용을 통해 복잡한 문제를 해결할 수 있음을 보여주는 중요한 연구입니다.

연구 배경 및 동기

과학의 역사는 자연 현상을 간결하고 우아한 수학 방정식으로 설명하려는 노력의 역사입니다. 뉴턴의 운동 법칙부터 아인슈타인 방정식에 이르기까지, 이러한 방정식들은 세상을 이해하고 예측하는 근간이 되어왔습니다. 전통적으로 이러한 발견은 과학자의 깊은 통찰력, 수많은 실험, 그리고 가설-검증의 반복을 통해 이루어졌습니다. 이는 매우 시간 소모적이고 직관에 의존하는 과정입니다.

최근 인공지능, 특히 대규모 언어 모델(LLM)의 발전은 과학적 발견의 자동화 가능성을 열었습니다. LLM은 방대한 텍스트와 코드로부터 복잡한 패턴과 추론 능력을 학습했습니다. 하지만 LLM을 방정식 발견에 직접 적용하는 기존의 접근법들은, 데이터를 보고 그럴듯한 수식을 '추측'하는 방식에 머물러 물리적 의미가 결여되거나 부정확한 결과를 낳는 경우가 많았습니다. 마치 정답을 모르는 학생이 여러 공식을 대입해보는 것과 같습니다.

이 연구는 이러한 한계를 극복하고자 "LLM이 과학자처럼 생각하게 만들 수 없을까?" 라는 질문에서 출발합니다. 과학자는 데이터를 보고 무작정 수식을 찾는 대신, 시스템의 근본적인 원리(예: 에너지 보존, 대칭성)를 먼저 파악합니다. KeplerAgent는 바로 이 과정을 모방합니다. LLM을 지휘자로 삼아, 물리적 원리를 분석하는 도구를 사용하고, 그 결과를 바탕으로 방정식 탐색의 범위를 좁혀 훨씬 효율적이고 정확하게 정답을 찾아냅니다.

관련 연구

  1. Symbolic Regression (SR): 데이터에 가장 잘 맞는 수학 공식을 찾는 기법입니다. 유전 프로그래밍(Genetic Programming) 기반의 PySR이 대표적이며, 무작위로 생성된 수식들을 진화시켜 최적의 해를 찾습니다. 하지만 탐색 공간이 매우 넓어 비효율적일 수 있습니다.

  2. Sparse Identification of Nonlinear Dynamics (SINDy): 비선형 동적 시스템의 지배 방정식을 찾는 데 특화된 알고리즘입니다. 미리 정의된 후보 함수 라이브러리(예: x,x2,sin(x)x, x^2, \sin(x)) 중에서 시스템을 설명하는 데 필요한 최소한의 항들만 찾아내는 희소 회귀(Sparse Regression)를 사용합니다.

  3. LLM-based Symbolic Regression (LLM-SR): LLM의 생성 능력을 이용해 데이터 설명을 보고 직접 방정식을 추론하게 하는 방식입니다. LLM이 사전 학습한 지식을 활용하지만, 물리적 제약을 명시적으로 고려하지는 않아 정확성에 한계가 있습니다.

  4. Physics-guided Machine Learning: 머신러닝 모델의 학습 과정에 물리 법칙(예: 에너지 보존)을 제약 조건으로 추가하여, 물리적으로 타당하고 일반화 성능이 높은 모델을 만드는 방법론입니다. 이는 이미 알려진 물리 법칙을 '주입'하는 방식입니다.

  5. Lie Symmetry Analysis: 미분 방정식이 특정 변환(예: 회전, 이동)에 대해 불변하는 성질, 즉 대칭성을 분석하는 수학적 방법론입니다. 대칭성은 시스템의 보존 법칙과 깊은 관련이 있어 방정식의 구조에 대한 강력한 단서를 제공합니다.

연구 분야 본 논문(KeplerAgent)과의 차별점
Symbolic Regression (SR) 무작위 탐색이 아닌, LLM이 물리적 특성을 먼저 파악하여 탐색 공간을 지능적으로 축소
SINDy SINDy를 하나의 도구로 사용하되, 대칭성 분석을 통해 후보 함수 라이브러리를 최적화하여 성능을 향상시킴
LLM-SR LLM을 수식 추측기가 아닌, 과학적 도구들을 조율하고 추론하는 에이전트로 활용함
Physics-guided ML 알려진 물리 법칙을 주입하는 대신, 데이터로부터 숨겨진 물리적 원리(대칭성)를 먼저 발견하고 이를 활용함
Lie Symmetry Analysis 대칭성 분석 자체에 그치지 않고, 그 결과를 방정식 탐색을 위한 구체적인 제약 조건으로 변환하여 활용함

핵심 기여

  1. 과학적 추론 과정의 자동화: KeplerAgent는 LLM을 단순한 패턴 인식기를 넘어, 가설 설정 → 도구 선택 → 실험 → 결과 검증이라는 과학적 발견의 핵심 과정을 자동화하는 '에이전트'로 활용하는 새로운 패러다임을 제시했습니다.

  2. 물리학 기반 탐색 공간 축소: 데이터의 근본적인 **대칭성(Symmetry)**을 먼저 발견하고, 이를 통해 가능한 방정식의 형태를 수학적으로 제약합니다. 이는 무한에 가까운 수식의 공간을 효과적으로 가지치기하여 탐색의 효율성과 정확성을 극적으로 높입니다.

  3. LLM과 외부 과학 도구의 시너지: LLM이 중심이 되어 대칭성 분석 도구, PySINDy, PySR과 같은 전문화된 외부 도구들을 유기적으로 통합하고 조율합니다. 이는 각 도구의 장점을 극대화하는 효과적인 파이프라인을 구축합니다.

  4. 뛰어난 실험적 성능: 10개의 표준 물리 방정식 벤치마크에서 기존 SOTA(State-of-the-art) 방법론들을 압도하는 성능을 보였습니다. 특히 노이즈가 섞인 현실적인 데이터 환경에서도 매우 강건한 모습을 보여 실용적 가치를 입증했습니다.

제안 방법론

KeplerAgent는 LLM을 중심으로 여러 모듈이 협력하여 물리 방정식을 발견하는 프레임워크입니다. 전체 과정은 다음과 같습니다.

1. 데이터 분석 및 대칭성 발견 (Symmetry Discovery)

가장 먼저, KeplerAgent는 주어진 시계열 데이터에 숨겨진 **리 대칭성(Lie Symmetry)**을 분석합니다. 대칭성이란 시스템이 특정 변환(예: 시간 이동, 공간 회전)에 대해 불변하는 성질을 의미하며, 이는 물리계의 근본적인 보존 법칙(예: 에너지 보존, 운동량 보존)과 직접적으로 연결됩니다. 에이전트는 대칭성 발견 도구를 사용하여 데이터로부터 리 생성자(Lie generator) 행렬을 추정합니다. 이 행렬은 시스템이 어떤 종류의 대칭성을 갖는지 정량적으로 나타내며, 이후 방정식 형태를 제약하는 핵심 단서가 됩니다.

2. 물리적 특성 기반 가설 수립 (Hypothesis Formulation)

발견된 대칭성 정보를 바탕으로, LLM 에이전트는 시스템의 물리적 특성에 대한 가설을 세웁니다. 예를 들어, 진자 운동 데이터에서 시간에 대한 불변성(time-invariance)과 관련된 대칭성을 발견했다면, LLM은 "이 시스템은 에너지가 보존될 가능성이 높다"고 추론합니다. 이 추론은 최종 방정식이 에너지 보존 법칙을 만족하는 형태여야 한다는 강력한 제약 조건으로 이어집니다.

3. 도구 선택 및 구성 (Tool Configuration)

세워진 가설에 따라, LLM은 가장 적합한 기호 회귀 도구를 선택하고 최적의 설정을 구성합니다.

  • 만약 시스템이 미분 방정식으로 표현될 것으로 예상되면, PySINDy를 선택합니다.
  • 더 일반적인 대수적 형태의 방정식이 필요하면, PySR을 선택합니다.

이후, 2단계에서 얻은 물리적 제약(예: 에너지 보존항 포함)을 도구의 탐색 공간에 직접 반영합니다. 예를 들어 PySINDy의 후보 함수 라이브러리에 에너지 관련 항(x2+y2x^2 + y^2)을 추가하거나, 특정 항들의 조합을 강제하는 제약 조건을 설정합니다.

4. 수식 발견 및 검증 (Equation Discovery & Verification)

최적화된 설정으로 구성된 도구를 실행하여 후보 방정식을 도출합니다. 이후, 발견된 방정식이 원본 데이터를 얼마나 잘 설명하는지, 그리고 물리적 제약 조건을 만족하는지 최종적으로 검증하여 가장 우수한 방정식을 결과로 제시합니다.

핵심 수식

  1. 등변성 오차 (Equivariance Error): 대칭성 발견에 사용되는 손실 함수입니다. 신경망 모델이 데이터에 내재된 대칭성을 얼마나 잘 학습했는지를 측정합니다.

    Lequiv=Ex[Jfθ(x)G(x)G(fθ(x))]\mathcal{L}_{equiv} = \mathbb{E}_{\mathbf{x}}[\|\mathbf{J}_{f_\theta}(\mathbf{x}) \mathbf{G}(\mathbf{x}) - \mathbf{G}(f_\theta(\mathbf{x}))\|]
    • x\mathbf{x}: 시스템의 상태 변수 벡터 (예: [위치, 속도])
    • fθf_\theta: 데이터로부터 시스템의 다음 상태를 예측하도록 훈련된 신경망
    • Jfθ\mathbf{J}_{f_\theta}: fθf_\theta의 야코비안 행렬 (출력의 각 요소가 입력의 각 요소에 대해 어떻게 변하는지를 나타냄)
    • G(x)\mathbf{G}(\mathbf{x}): 대칭성을 나타내는 생성자(generator) 벡터 필드. 이 오차를 최소화하는 G\mathbf{G}를 찾는 것이 목표입니다.
  2. PySINDy의 희소 회귀: 시스템의 동역학을 표현하는 미분 방정식입니다.

    dxdt=Θ(x)Ξ\frac{d\mathbf{x}}{dt} = \mathbf{\Theta}(\mathbf{x})\mathbf{\Xi}
    • dxdt\frac{d\mathbf{x}}{dt}: 상태 변수 x\mathbf{x}의 시간에 따른 변화율
    • Θ(x)\mathbf{\Theta}(\mathbf{x}): 다항식(1,x,y,x2,xy,1, x, y, x^2, xy, \dots), 삼각함수(sin(x),cos(y),\sin(x), \cos(y), \dots) 등 가능한 모든 후보 함수의 라이브러리
    • Ξ\mathbf{\Xi}: 각 후보 함수에 대한 계수 행렬. SINDy는 이 행렬의 대부분의 원소가 0이 되도록(희소하게) 만들어, 시스템을 설명하는 가장 간결한 항들만 남깁니다.

실험 설정

데이터셋

Lotka-Volterra(포식자-피식자 모델), van der Pol 발진기(비선형 진동), Lorenz 시스템(혼돈 이론) 등 10개의 저명한 미분 방정식 시스템으로 구성된 벤치마크 데이터셋에서 평가를 진행했습니다. 각 시스템에 대해 깨끗한 원본 데이터와 1%의 가우시안 노이즈가 추가된 데이터를 모두 사용하여 현실적인 환경에서의 강건성을 테스트했습니다.

평가 지표

  • Symbolic Accuracy (상징적 정확도): 발견된 방정식의 구조가 실제 정답 방정식과 수학적으로 동일한지 여부를 백분율로 측정합니다.
  • Normalized MSE (정규화된 평균 제곱 오차): 발견된 방정식을 사용하여 예측한 궤적이 실제 데이터 궤적과 얼마나 차이 나는지를 측정합니다.

베이스라인

  • PySR: 전통적인 유전 프로그래밍 기반 기호 회귀의 대표 주자.
  • SINDy: 미분 방정식 발견을 위한 강력한 희소 회귀 기반 방법.
  • LLM-SR: LLM을 이용해 직접 방정식을 추론하는 최신 접근법.

하이퍼파라미터

파라미터 설명
LLM 에이전트 GPT-4 추론 및 도구 사용을 위한 핵심 엔진
PySINDy 후보 라이브러리 다항식 (최대 3차), 삼각함수 대칭성 분석 결과에 따라 동적으로 수정됨
PySINDy 희소 임계값 0.1 계수의 크기가 이 값보다 작으면 0으로 간주
PySR 세대 수 40 유전 프로그래밍의 진화 세대 수

실험 결과 분석

주요 결과

KeplerAgent는 모든 벤치마크 데이터셋에서 기존 방법론들을 압도하는 성능을 보였습니다.

모델 상징적 정확도 (%) (노이즈 없음) 상징적 정확도 (%) (1% 노이즈)
KeplerAgent (Ours) 100.0 90.0
PySR 90.0 20.0
SINDy 100.0 10.0
LLM-SR 80.0 20.0
  • 노이즈 없는 데이터: KeplerAgent와 SINDy는 100%의 정확도를 달성했지만, 노이즈가 추가되자 성능 차이가 극명하게 드러났습니다.
  • 노이즈 데이터: KeplerAgent는 90%라는 매우 높은 정확도를 유지한 반면, SINDy, PySR, LLM-SR 등 다른 모든 방법론은 정확도가 10-20% 수준으로 급격히 하락했습니다. 이는 KeplerAgent의 물리 기반 제약 조건이 노이즈에 대한 강건성을 크게 향상시킴을 의미합니다.

Ablation Study (구성 요소 제거 연구)

KeplerAgent의 어떤 부분이 성능 향상에 결정적인 역할을 했는지 확인하기 위해 핵심 모듈을 하나씩 제거하며 성능을 측정했습니다.

  • 대칭성 발견 모듈 제거 시: KeplerAgent의 정확도는 90%에서 20%로 급락하여 PySR과 비슷한 수준이 되었습니다.
  • 결론: 이 결과는 물리적 대칭성을 파악하고 이를 통해 탐색 공간을 줄이는 것이 KeplerAgent의 압도적인 성능의 핵심 요인임을 명확히 보여줍니다.

비판적 평가

강점

  1. 혁신적인 접근법: LLM을 단순 추론기가 아닌, 과학적 도구를 지휘하는 '에이전트'로 활용한 접근은 AI 기반 과학 연구의 새로운 방향을 제시합니다.
  2. 물리적 원리의 효과적인 활용: '대칭성'이라는 근본적인 물리 원리를 방정식 탐색에 직접 연결하여, 해석 가능하고 정확하며 강건한 결과를 도출했습니다.
  3. 뛰어난 노이즈 강건성: 실제 데이터에 항상 존재하는 노이즈 환경에서도 높은 성능을 유지하여 실용적 적용 가능성이 매우 높습니다.

한계점과 개선 방향

  1. 대칭성 의존성: 현재 KeplerAgent의 성능은 데이터에서 유의미한 대칭성을 발견하는 능력에 크게 의존합니다. 대칭성이 없거나 매우 복잡하여 수치적으로 발견하기 어려운 시스템에서는 성능이 저하될 수 있습니다.
  2. 도구의 한계: 현재는 PySINDyPySR이라는 두 가지 도구에 의존합니다. 더 다양한 종류의 방정식을 다루기 위해서는 더 넓은 범위의 과학적 계산 도구와의 통합이 필요합니다.
  3. 계산 비용: LLM 호출과 여러 도구를 실행하는 과정은 계산 비용이 높을 수 있습니다. 특히 대규모 데이터셋에 대한 적용을 위해서는 최적화가 필요합니다.

재현성 평가

본 논문은 공식 코드 저장소를 통해 모든 코드와 실험 데이터를 공개하였으며, 하이퍼파라미터 설정 또한 상세히 제공하여 재현성이 매우 높다고 평가됩니다.

향후 연구 방향

  1. 다양한 물리적 제약 조건 도입: 대칭성 외에도 인과관계, 스케일링 법칙, 위상수학적 특성 등 다른 물리적/수학적 원리를 통합하여 탐색 공간을 더욱 정교하게 줄일 수 있습니다.
  2. 자율적인 도구 생성 및 학습: 현재는 미리 정의된 도구를 사용하지만, LLM이 문제에 맞춰 새로운 분석 코드나 도구를 스스로 생성하고 학습하는 방향으로 발전할 수 있습니다.
  3. 실험 계획 및 설계: 수동적으로 데이터를 분석하는 것을 넘어, 어떤 실험을 수행해야 가장 유용한 데이터를 얻을 수 있는지 능동적으로 제안하는 '자율 과학자(Autonomous Scientist)' 에이전트로의 확장이 기대됩니다.

실무 적용 가이드

KeplerAgent를 실제 문제에 적용하고자 할 때 다음 사항을 고려할 수 있습니다.

  1. 문제 정의: 해결하고자 하는 시스템이 미분 방정식이나 명확한 대수적 관계로 설명될 수 있는지 확인합니다.
  2. 데이터 품질: 결과의 품질은 데이터의 품질에 크게 좌우됩니다. 충분한 길이와 해상도를 가진 시계열 데이터를 준비하고, 노이즈 제거 등 신중한 전처리가 필요합니다.
  3. 의사결정 과정 시각화: KeplerAgent가 어떤 대칭성을 발견했고, 이를 바탕으로 어떤 가설을 세워 도구를 설정했는지 중간 과정을 시각화하면 결과에 대한 신뢰도를 높이고 디버깅에 용이합니다.

다음은 KeplerAgent의 워크플로우를 나타낸 의사 코드입니다.

# 1. 데이터 로드 및 에이전트 초기화
data = load_trajectory_data("lorenz_system.csv")
agent = KeplerAgent(llm="gpt-4-turbo")

# 2. 에이전트가 데이터 분석 및 대칭성 발견
# 내부적으로 SymmetryNet을 실행하여 Lie 생성자 추정
analysis_report = agent.analyze(data)
# analysis_report: "발견된 대칭성은 원점 주위의 회전 대칭과 관련이 있음.
#                  이는 특정 보존량이 존재할 수 있음을 시사함."

# 3. 분석 기반으로 도구 선택 및 구성
# LLM이 보고서를 바탕으로 PySINDy를 선택하고 제약 조건 생성
tool_config = agent.configure_tool(analysis_report)
# tool_config: {
#   "tool_name": "PySINDy",
#   "library": ["x", "y", "z", "xy", "xz", ...],
#   "constraints": ["ensure_rotational_symmetry"]
# }

# 4. 구성된 도구로 방정식 발견 및 검증
equation = agent.discover(data, tool_config)
print(f"발견된 방정식: {equation}")

결론

KeplerAgent는 LLM을 과학적 발견 프로세스의 중심에 두고, 물리적 원리를 바탕으로 추론하고 도구를 사용하는 혁신적인 프레임워크를 제시했습니다. 이는 단순히 데이터를 수식에 끼워 맞추는 기존의 방식을 넘어, 과학적 사고 과정을 모방함으로써 더 정확하고, 강건하며, 해석 가능한 결과를 이끌어냈습니다. 이 연구는 AI가 인간 과학자와 협력하여 미지의 과학적 난제를 해결하는 미래를 한 걸음 더 앞당겼으며, 물리학, 화학, 생물학 등 다양한 과학 분야에 큰 영향을 미칠 잠재력을 보여줍니다.

참고 자료