[논문 리뷰] OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists
TL;DR
본 논문에서는 인간 과학자와 AI 과학자 간의 협력적인 공진화 생태계를 구축하기 위한 프레임워크인 OmniScientist를 제안한다. 기존 AI 과학자 시스템이 과학적 발견을 독립적인 문제로 간주하는 한계를 극복하기 위해, OmniScientist는 인간 연구의 핵심 메커니즘을 AI 워크플로우에 통합한다. OmniScientist는 데이터 기반 연구, 문헌 검토, 연구 아이디어 생성, 실험 자동화, 과학적 글쓰기, 논문 심사 등 과학 연구의 전 과정을 자동화하며, 구조화된 지식 시스템, 협력 연구 프로토콜 (OSP), 개방형 평가 플랫폼 (ScienceArena)을 통해 AI 에이전트가 인간의 지식을 이해하고 활용하며, 협력하고 공진화할 수 있도록 지원한다. 실험 결과, OmniScientist는 연구 효율성을 향상시키고, 인간과 AI 간의 협력을 증진하며, AI 과학자 시스템의 발전을 위한 평가 플랫폼을 제공하는 데 효과적임을 입증했다. OmniScientist는 과학 연구의 패러다임을 전환하고, 인간과 AI의 협력을 통해 과학 발전의 속도를 가속화할 수 있는 잠재력을 제시한다.
연구 배경 및 동기
최근 대규모 언어 모델(Large Language Models, LLMs)의 급속한 발전과 함께 AI 에이전트는 가설 생성, 실험 설계, 논문 작성 등 다양한 과학적 작업에서 뛰어난 능력을 보여주고 있다. 이러한 AI 에이전트 시스템은 일반적으로 "AI 과학자"라고 불린다. 그러나 기존의 AI 과학자는 과학적 발견을 독립적인 검색 또는 최적화 문제로 간주하는 경향이 있으며, 과학 연구가 본질적으로 사회적이고 협력적인 노력이라는 점을 간과하고 있다. 실제 과학 연구는 협력 메커니즘, 기여도 평가, 동료 평가(peer review), 구조화된 과학 지식 네트워크로 구성된 복잡한 과학 인프라에 의존한다.
이러한 중요한 측면에 대한 모델링 부족으로 인해 현재 시스템은 진정한 연구 생태계를 구축하거나 인간 과학 커뮤니티와 깊이 있게 상호 작용하는 데 어려움을 겪고 있다. 예를 들어, 기존 AI 과학자는 특정 연구 분야의 전문가 네트워크를 활용하거나, 다른 연구자의 피드백을 반영하여 연구를 개선하는 데 한계가 있다. 또한, 연구 과정에서 발생하는 다양한 데이터, 코드, 아이디어 등의 기여를 추적하고, 각 기여자의 공헌을 명확하게 평가하는 데 어려움이 있다.
이러한 문제점을 해결하기 위해 본 연구에서는 인간 연구의 기본 메커니즘을 AI 과학 워크플로우에 명시적으로 인코딩하는 OmniScientist라는 프레임워크를 제안한다. OmniScientist는 AI 에이전트가 인간의 지식 시스템을 이해하고 활용하며, 협력하고 공진화할 수 있도록 지원하여 지속 가능하고 확장 가능한 혁신 생태계를 조성하는 것을 목표로 한다. 본 연구는 다음과 같은 핵심 연구 질문에 답하고자 한다.
- 어떻게 하면 AI 에이전트가 인간 과학 커뮤니티와 효과적으로 협력할 수 있는 구조를 설계할 수 있는가?
- 어떻게 하면 AI 에이전트의 과학적 엄격성과 혁신성을 객관적으로 평가할 수 있는 플랫폼을 구축할 수 있는가?
- 어떻게 하면 AI 에이전트가 과학적 발견의 전 과정을 자동화하고, 인간 연구자의 역할을 보완할 수 있는 워크플로우를 개발할 수 있는가?
관련 연구
본 연구는 AI 과학자, 자동화된 과학 발견, 인간-AI 협업 등 다양한 분야의 선행 연구를 기반으로 한다. 다음은 본 연구와 관련된 주요 선행 연구와 본 논문과의 차별점을 설명한다.
- AI Scientist: Schmidt and Lipson (2009)은 유전 프로그래밍을 사용하여 물리 법칙을 발견하는 AI Scientist 시스템을 개발했다. 이 시스템은 데이터에서 수학적 관계를 자동으로 추출하고, 새로운 물리 법칙을 제안할 수 있었다. 하지만 이 시스템은 특정 도메인에 특화되어 있으며, 인간 과학자와의 협력을 고려하지 않았다.
- Adam: King et al. (2004)은 효모의 기능 유전체학 연구를 자동화하는 로봇 과학자 Adam을 개발했다. Adam은 가설 생성, 실험 설계, 데이터 분석, 결과 해석 등 연구의 전 과정을 자동화할 수 있었다. 하지만 Adam은 특정 실험 프로토콜에 의존하며, 인간의 지식과 경험을 활용하는 데 한계가 있었다.
- Eureqa: Nutonian의 Eureqa는 데이터에서 수학적 관계를 자동으로 발견하는 소프트웨어이다. Eureqa는 다양한 분야에서 데이터 분석 및 모델링에 사용되고 있지만, 과학적 발견의 전 과정을 자동화하거나, 인간 과학자와의 협력을 지원하지 않는다.
- AlphaGo: Silver et al. (2016)은 딥러닝과 강화 학습을 결합하여 인간 최고 수준의 바둑 실력을 능가하는 AlphaGo를 개발했다. AlphaGo는 복잡한 문제 해결 능력을 보여주었지만, 과학적 발견의 복잡성과 불확실성을 다루는 데는 한계가 있다.
- GPT-3 for Science: Brown et al. (2020)은 대규모 언어 모델 GPT-3를 사용하여 과학적 텍스트 생성 및 질문 응답 능력을 평가했다. GPT-3는 과학적 텍스트를 생성하고, 간단한 질문에 답변할 수 있었지만, 새로운 가설을 생성하거나, 복잡한 실험을 설계하는 데는 어려움을 겪었다.
| 선행 연구 | 주요 특징 | 본 논문과의 차별점
핵심 기여
본 논문의 주요 기여는 다음과 같습니다:
- OmniScientist 프레임워크: 인간 연구의 메커니즘을 AI 워크플로우에 명시적으로 통합하여 AI 에이전트가 인간 과학 커뮤니티와 효과적으로 협력할 수 있도록 하는 새로운 프레임워크를 제시한다.
- 구조화된 지식 시스템: 인용 네트워크와 개념적 상관관계를 기반으로 구축된 구조화된 지식 시스템을 통해 AI 에이전트가 인간의 지식 시스템을 이해하고 활용할 수 있도록 지원한다.
- 협력 연구 프로토콜 (OSP): 다중 에이전트 협력과 인간 연구자의 참여를 원활하게 지원하는 협력 연구 프로토콜 (OSP)를 개발하여 연구 과정의 효율성과 투명성을 높인다.
- ScienceArena: 블라인드 페어와 Elo 순위를 기반으로 한 개방형 평가 플랫폼인 ScienceArena를 구축하여 AI 에이전트의 과학적 엄격성과 혁신성을 객관적으로 평가하고, 지속적인 발전을 유도한다.
- 실험적 검증: 다양한 사례 연구와 실험을 통해 OmniScientist 프레임워크의 효과를 입증하고, 인간-AI 협력의 잠재력을 보여준다.
제안 방법론
OmniScientist 프레임워크는 인간 과학 연구의 핵심 메커니즘을 모방하고 통합하여 AI 에이전트가 인간 과학 커뮤니티와 효과적으로 협력할 수 있도록 설계되었다. 프레임워크는 크게 세 가지 주요 구성 요소로 구성된다: 구조화된 지식 시스템, 협력 연구 프로토콜 (OSP), 개방형 평가 플랫폼 (ScienceArena).
1. 구조화된 지식 시스템
구조화된 지식 시스템은 인용 네트워크와 개념적 상관관계를 기반으로 구축되어 AI 에이전트가 인간의 지식 시스템을 이해하고 활용할 수 있도록 지원한다. 이 시스템은 OpenAlex와 arXiv의 데이터를 활용하여 동적 과학 네트워크를 구축하고, Elasticsearch와 과학 네트워크를 활용하여 심층적이고 정확한 문헌 검색을 수행한다.
- 지식 그래프 구축: OpenAlex와 arXiv의 논문 데이터를 이용하여 논문 간의 인용 관계 및 개념적 관계를 그래프 형태로 표현한다. 각 노드는 논문을 나타내고, 엣지는 인용 관계 또는 개념적 유사성을 나타낸다.
- 문헌 검색: Elasticsearch를 사용하여 키워드 기반의 문헌 검색을 수행하고, 과학 네트워크를 활용하여 관련 논문을 추천한다. 검색 결과는 논문 제목, 초록, 저자, 인용 횟수 등의 메타데이터와 함께 제공된다.
- 개념적 관계 분석: 논문 간의 개념적 유사성을 분석하기 위해 텍스트 마이닝 및 자연어 처리 기술을 활용한다. 예를 들어, Word2Vec 또는 BERT와 같은 모델을 사용하여 논문 초록의 단어 임베딩을 계산하고, 코사인 유사도를 이용하여 개념적 유사성을 측정한다.
2. 협력 연구 프로토콜 (OSP)
협력 연구 프로토콜 (OSP)는 다중 에이전트 협력과 인간 연구자의 참여를 원활하게 지원한다. OSP는 연구 프로젝트의 정의, 참여자 등록, 메시지 교환, 기여도 추적 등의 기능을 제공한다.
- 프로젝트 정의: 연구 프로젝트의 목표, 범위, 필요한 리소스, 참여자 역할 등을 정의한다.
- 참여자 등록: 인간 연구자와 AI 에이전트를 등록하고, 각 참여자의 전문 분야, 관심사, 수행 가능한 작업 등을 기록한다.
- 메시지 교환: 연구 과정에서 발생하는 모든 커뮤니케이션을 체계적으로 관리하고, 필요한 정보를 쉽게 검색하고 공유할 수 있도록 지원한다.
- 기여도 추적: 연구 과정에서 발생하는 데이터, 코드, 아이디어 등의 기여를 추적하고, 각 기여자의 공헌을 명확하게 평가한다.
3. 개방형 평가 플랫폼 (ScienceArena)
ScienceArena는 블라인드 페어와 Elo 순위를 기반으로 한 개방형 평가 플랫폼으로, AI 에이전트의 과학적 엄격성과 혁신성을 객관적으로 평가하고, 지속적인 발전을 유도한다. ScienceArena는 LMArena의 원칙을 따르되, 정적인 평가 질문 대신 사용자들이 동적으로 연구 질문을 제출하도록 한다.
- 연구 질문 제출: 사용자들이 AI 에이전트에게 연구 질문을 제출한다.
- 모델 응답 생성: AI 에이전트가 제출된 연구 질문에 대한 응답을 생성한다.
- 블라인드 페어 평가: 사용자들이 AI 에이전트의 응답을 익명으로 쌍별 비교하여 평가한다.
- Elo 순위 업데이트: 평가 결과를 바탕으로 Elo 순위를 업데이트하고, AI 에이전트의 성능을 객관적으로 비교한다.
4. Deep Ideation 프레임워크
Deep Ideation 프레임워크는 과학 네트워크를 탐색하고 키워드를 확장하여 새로운 연구 아이디어를 생성하는 데 사용된다. 이 프레임워크는 LLM과 과학적 네트워크를 통합하여 혁신적이고 과학적으로 근거 있는 연구 아이디어를 생성한다.
-
키워드 선택 모듈: 새로운 키워드를 선택하여 기존 키워드 세트에 추가하고, 이를 통해 아이디어를 발전시킨다. 새로운 키워드
$k_{new}$와 기존 키워드$k_i$간의 관계$R(k_{new}, k_i)$는 다음과 같이 정의된다.여기서
$g$는 키워드 간의 관계를 평가하는 함수이고,$P(k_{new}, k_i)$는 두 키워드 간의 연관성을 나타내는 확률이다. -
아이디어 공식화 모듈: 선택된 키워드를 바탕으로 연구 배경, 아이디어, 구현 방안을 포함하는 아이디어 제안을 생성한다. 이 모듈은 LLM을 사용하여 키워드 간의 관계를 분석하고, 논리적인 연구 제안서를 작성한다.
-
Critic 모델: 생성된 아이디어에 대해 전문가 수준의 평가 피드백을 제공하여 아이디어의 참신성과 실현 가능성을 보장한다. 이 모델은 연구 논문 데이터베이스를 학습하여 아이디어의 독창성과 과학적 타당성을 평가한다.
5. 자동화된 과학 논문 작성
OmniScientist는 문헌 분석, 시각적 자료 생성, LLM 기반 글쓰기, VLM 기반의 정제를 통해 자동화된 과학 논문 작성을 수행한다.
- 문헌 분석: Elasticsearch와 과학 네트워크를 활용하여 심층적이고 정확한 문헌 검색을 수행하고, 다중 에이전트 구조로 문헌의 핵심 내용을 추출하고 통합한다.
- 시각적 자료 생성: VLM(Vision Language Model)을 활용하여 그래프나 도표의 설명을 자동으로 생성하고, 논문의 시각적 품질을 향상시킨다.
- LLM 기반 글쓰기: LLM을 사용하여 논문의 서론, 방법론, 결과, 결론 등의 섹션을 자동으로 작성한다.
- VLM 기반 정제: VLM을 사용하여 논문의 전체적인 흐름과 논리적 일관성을 검토하고, 필요한 부분을 수정한다.
6. 실험 자동화
OmniScientist는 데이터셋과 기준선 추천을 통해 실험을 자동화하고, 다중 에이전트 시스템을 통해 효율적인 실험 최적화를 수행한다.
- 데이터셋 추천: 연구 질문에 적합한 데이터셋을 자동으로 추천한다.
- 기준선 추천: 연구 질문에 대한 성능 비교를 위해 적절한 기준선 모델을 자동으로 추천한다.
- 실험 실행: 추천된 데이터셋과 기준선을 사용하여 실험을 자동으로 실행한다.
- 결과 분석: 실험 결과를 자동으로 분석하고, 성능 지표를 계산한다.
7. 폐쇄 루프 다중 에이전트 시스템
The Hub은 DeepResearch, Ideation, Automated Experimentation 에이전트를 통합하여 알고리즘의 진화적 개선과 지식 기반 탐색을 균형 있게 수행하는 폐쇄 루프 다중 에이전트 시스템을 지원한다.
- DeepResearch: 기존 연구 자료를 분석하고, 새로운 연구 아이디어를 발굴한다.
- Ideation: 다양한 아이디어를 생성하고, 실현 가능성을 평가한다.
- Automated Experimentation: 자동으로 실험을 수행하고, 결과를 분석한다.
이러한 에이전트들은 서로 협력하여 연구 과정을 자동화하고, 연구 효율성을 높인다.
실험 설정
OmniScientist 프레임워크의 효과를 검증하기 위해 다양한 실험을 수행했다. 실험은 크게 세 가지 트랙으로 구성된다: 문헌 검토, 아이디어 생성, 논문 리뷰.
1. 데이터셋
- OpenAlex: 전 세계의 학술 출판물에 대한 메타데이터를 제공하는 데이터베이스이다. OpenAlex는 논문 제목, 초록, 저자, 인용 횟수 등의 정보를 제공한다.
- arXiv: 물리학, 수학, 컴퓨터 과학 등 다양한 분야의 논문 프리프린트를 제공하는 저장소이다. arXiv는 최신 연구 동향을 파악하고, 새로운 연구 아이디어를 탐색하는 데 유용하다.
2. 평가 지표
- 문헌 검토: 인용의 양, 밀도, 깊이 등을 평가한다.
- 아이디어 생성: 참신성, 실행 가능성, 과학적 타당성 등을 평가한다.
- 논문 리뷰: 전문적인 판단력, 간결함, 비판적인 시각 등을 평가한다.
3. 베이스라인
- BM25: 정보 검색 분야에서 널리 사용되는 랭킹 함수이다. BM25는 키워드 기반의 문헌 검색에 사용된다.
- GPT-3: 대규모 언어 모델로, 텍스트 생성 및 질문 응답 능력을 평가하는 데 사용된다.
4. 하이퍼파라미터
| 하이퍼파라미터 | 값 | 설명

![[논문 리뷰] OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists](/assets/images/blog/20260103-paper-2511-16931-omniscientist-toward-a-co-evol.jpg)