[논문 리뷰] LAMP-CAP: Personalized Figure Caption GenerationWith Multimodal Figure Profiles (25.06)

728x90

SMALL

Figure 캡션들은 독자가 Figure의 핵심 메세지를 이해하고 이거하는데 매우 중요하다. 이러한 캡션들을 생성하기 위해 많은 모델들이 개발되어 저자들이 더 나은 품질의 Caption을 더 쉽게 작성할 수 있도록 돕고 있다. 하지만, 저자들은 거의 매번 일반적인 AI-생성 캡션을 자신의 글쓰기 스타일과 해당 분야의 스타일에 맞게 수정해야 하며, 이는 개인화의 필요성을 강조한다. 언어 모델의 개인화(LaMP) 발전에도 불구하고, 이러한 기술들은 종종 텍스트만을 다루는 환경에 초점을 맞추고 있으며 입력과 프로필이 모두 멀티모달인 시나리오는 거의 다루지 않는다. 본 논문은 멀티모달 Figure 프로필들을 활용한 개인화된 Figure Caption 생성을 위한 데이터 셋인 LAMP-CAP을 소개한다. 각 대상 Figure에 대해, LAMP-CAP은 Figure 이미지들과 같은 필요한 입력뿐만 아니라 동일한 뭄ㄴ서에서 가져온 최대 3개의 다른 Figure들(각각 Figure, 캡션, figure가 언급된 paragraphs 포함)을 맥락을 특성화하는 프로필로 제공한다. 4개의 LLM을 이용한 실험에서 프로필 정보를 사용하는 것이 원 저자가 작성한 것과 더 가까운 캡션을 일관되게 생성하는데 도움이 됨을 보여준다. Ablation 연구를 통해 프로필 내 이미지가 Figure를 언급하는 단락보다 더 유용함을 밝혀냈으며, 이는 텍스트만 사용하는 프로필보다 머티모달 프로필을 사용하는 것의 장점을 강조한다.

1 Introdction

과학적 Figure 캡션 생성의 중요성과 기존 AI 모델들의 한계 (개인화 부족)
기존 언어 모델 개인화 연구가 텍스트 전용 환경에 집중되어 멀티모달 시나리오 적용이 불분명
LAMP-CAP 데이터셋 소개: 110,828개 과학적 Figure와 멀티모달 프로필을 포함
- 각 대상 Figure마다 동일 논문의 최대 3개 참조 Figure들을 프로필로 제공
4개 LLM 실험 결과: 프로필 정보 사용시 캡션 품질 일관된 향상, 캡션 > 이미지 > 텍스트 순으로 중요도 확인

Figure 1: Overview of LAMP-CAP. For each target figure, the dataset provides a multimodal source—the figure image and figure-mentioning paragraphs—and a multimodal profile of up to three other figures (i.e., profile figures) from the same paper, each with its image, caption, and related paragraphs. The model generates a caption for the target figure using this source and profile.

[Translated by Claude]

막대 차트나 선 그래프와 같은 Figure들은 과학자, 기업, 정부가 핵심 인사이트를 전달하기 위해 널리 사용된다 (Kim et al., 2021; Farahani et al., 2023). 이러한 Figure 옆에 배치되는 텍스트인 캡션은 독자가 Figure의 메시지를 이해하고 기억하는 데 매우 중요한 것으로 알려져 있다 (Tang et al., 2023; Kantharaj et al., 2022a; Meng et al., 2024). 저자들이 캡션을 더 쉽게 작성할 수 있도록 돕기 위해 고품질 캡션을 생성하는 많은 모델들이 개발되었다 (Hsu et al., 2021; Huang et al., 2023; Liu et al., 2022; Masry et al., 2023). 예를 들어, 2023년과 2024년의 SCICAP Challenge는 전 세계 팀들을 초청하여 arXiv 논문의 과학적 Figure에 대한 캡션을 생성하도록 했다 (Hsu et al., 2025; Kim et al., 2025). SCICAPENTER와 같은 시스템도 AI 생성 캡션을 제공하여 저자들을 지원하기 위해 등장했다 (Hsu et al., 2024).

이러한 발전에도 불구하고, 연구들은 저자들이 거의 항상 일반적인 AI 생성 캡션을 자신의 스타일과 해당 분야의 스타일에 맞게 수정해야 한다는 것을 보여주며, 한 참가자는 "이것이 (개념을) 제시하는 올바른 방법이 아니기 때문에 겉모습을 수정해야 한다"고 언급했다 (Ng et al., 2025a,b). 이는 개인화된 캡션 생성의 필요성을 강조한다.

한편, 대형 언어 모델(LLM)의 부상은 최근 개인화된 텍스트 생성에 대한 관심을 불러일으켰다 (Zhang et al., 2024; Wo´zniak et al., 2024). LAMP (Salemi et al., 2024) (언어 모델 개인화)와 LONGLAMP (Kumar et al., 2024)와 같은 벤치마크가 LLM이 특정 맥락에 맞게 텍스트를 조정하는 방법을 연구하기 위해 만들어졌다. 하지만 이러한 탐구의 대부분은 입력(생성용)과 프로필(개인화용) 모두 텍스트 기반인 텍스트 전용 설정에 초점을 맞췄다. 이러한 텍스트 전용 접근법이 Figure 캡션 생성과 같은 멀티모달 시나리오에 어떻게 적용되는지는 여전히 불분명하다.

본 논문은 멀티모달 Figure 프로필을 활용한 개인화된 Figure 캡션 생성을 위한 데이터셋인 LAMP-CAP을 소개한다 (§3). LAMP-CAP은 110,828개의 대상 Figure들—모델이 캡션 생성을 목표로 하는 과학적 Figure들—을 포함하며, 각각은 서로 다른 arXiv 논문에서 가져온 것이다. 각 대상 Figure에 대해, LAMP-CAP은 필요한 입력(소스)—Figure 이미지와 Figure를 언급하는 단락들(예: "Figure 3은 ...을 보여준다")—을 제공하며, 동일한 논문의 최대 3개의 다른 Figure들을 각각의 이미지, 캡션, Figure를 언급하는 단락과 함께 맥락을 포착하는 프로필로 제공한다. 그런 다음 모델들은 동일한 논문의 소스-캡션 쌍의 Figure 프로필(개인화를 위한 멀티모달 프로필)이 주어진 상태에서 대상 Figure의 이미지와 Figure를 언급하는 단락들(멀티모달 소스)을 사용하여 대상 Figure에 대한 캡션을 생성하는 과제를 수행한다. 우리는 LAMP-CAP을 사용하여 4개의 LLM으로 캡션 생성을 테스트했고, 프로필 정보가 생성된 캡션과 정답 캡션 간의 유사성을 일관되게 향상시킨다는 것을 발견했다 (§4). Ablation 연구는 캡션이 가장 중요한 프로필 요소이며, 그 다음이 이미지이고, Figure를 언급하는 단락이 가장 중요도가 낮다는 것을 밝혔다 (§4.1). 우리의 연구는 개인화된 텍스트 생성을 위한 새로운 벤치마크를 제공하고 텍스트 전용 접근법을 넘어 멀티모달 프로필 사용의 효과를 보여준다.

2 Related Work

Figure 캡션 생성 연구 발전: 초기 이미지 전용 → 맥락 정보 통합, 하지만 개인화 측면 간과
기존 개인화 시도들의 한계: 명시적 스타일 입력 의존성으로 사용자 설명에 종속적
개인화된 LLM 연구의 두 방향성
- 개인화된 텍스트 생성 (본 연구 초점)
- 다운스트림 작업 개인화 (추천 시스템 등)
기존 개인화 연구가 텍스트 전용 환경에 집중되어 멀티모달 확장 방법이 미해결 문제

[Translated by Claude]

Figure 캡션 생성. Figure 캡션 생성은 모델이 시각적 내용과 더 넓은 맥락을 모두 이해할 것을 요구한다 (Kantharaj et al., 2022b; Wang et al., 2024; Hu et al., 2024; Obeid and Hoque, 2020). FIGCAP과 SCICAP의 초기 버전과 같은 초기 접근법들은 입력으로 Figure 이미지에만 의존했다 (Chen et al., 2020; Hsu et al., 2021). 연구자들은 곧 이것이 불충분하다는 것을 깨달았고 Figure를 언급하는 단락들과 심지어 문서의 제목이나 초록과 같은 추가적인 맥락을 통합하기 시작했다 (Huang et al., 2023; Yang et al., 2024; Stokes et al., 2022). 이러한 진전에도 불구하고, 이전 연구들은 종종 개인화를 간과했다. 연구들이 사용자들이 종종 자신의 스타일이나 분야에 맞춘 캡션을 필요로 한다고 언급했음에도 불구하고 (Hsu et al., 2025; Huang et al., 2023), 이러한 접근법들 중 어느 것도 모델이 개인화된 스타일을 학습하는 데 필요한 특정 생성 맥락을 포착하는 소스-타겟 쌍을 명시적으로 제공하지 않았다. 몇몇 연구들이 이미지 캡션의 창의적 개인화를 탐구했지만 (Shuster et al., 2019; Anantha Ramakrishnan et al., 2025), 이러한 접근법들은 명시적인 스타일 입력에 의존하여 사용자가 제공하는 스타일 설명에 의존적이었다.

개인화된 LLM. LLM의 개인화는 주로 두 방향에서 주목을 받았다 (Zhang et al., 2024): (i) 생성된 텍스트를 특정 맥락에 적응시키는 개인화된 텍스트 생성, 그리고 (ii) 추천 시스템과 같은 목표 애플리케이션을 향상시키는 다운스트림 작업 개인화. 우리의 연구는 첫 번째 방향에 초점을 맞춘다. 이 분야의 대부분의 이전 연구는 텍스트 전용 설정에 중심을 두었다 (§1). 예를 들어, LAMP는 뉴스 헤드라인 생성과 이메일 제목 생성과 같은 작업을 포함했으며—텍스트 기반 입력과 프로필에만 배타적으로 의존했다 (Salemi et al., 2024). 이러한 접근법들이 멀티모달 시나리오로 어떻게 확장되는지는 여전히 열린 질문이다.

3 LAMP-CAP Dataset

SCICAP Challenge Dataset을 기반으로 LAMP-CAP 구축: 231,675개 arXiv 논문의 476,389개 Figure 활용
데이터 큐레이션 방식: 최소 2개 Figure 보유 논문 선별, 무작위로 1개를 대상 Figure로 선택
프로필 구성: 동일 논문 내 나머지 Figure들(최대 3개)을 개인화 맥락으로 활용
- SCICAP의 논문당 최대 4개 Figure 제한으로 인한 구조
데이터셋 규모: 총 110,828개 대상 Figure (훈련 86,197개, 검증 12,361개, 테스트 12,270개)
- 프로필 분포: 1개(49.3%), 2개(23.6%), 3개(27.1%)로 총 197,075개 프로필 Figure

[Translated by Claude]

데이터 소스 및 큐레이션 과정. 우리는 LAMP-CAP을 구축하기 위해 SCICAP Challenge Dataset을 큐레이션했다 (Hsu et al., 2025). SCICAP Challenge Dataset은 231,675개의 arXiv 논문에서 추출된 476,389개의 Figure를 포함했으며, 각각은 Figure 이미지, 캡션, Figure를 언급하는 단락들을 가지고 있었다. LAMP-CAP을 만들기 위해, 우리는 최소 두 개의 Figure를 가진 논문에 초점을 맞췄다. 각 적격 논문에 대해, 우리는 모델이 캡션을 생성해야 하는 대상 Figure로 하나의 Figure를 무작위로 선택했다. 동일한 논문의 나머지 Figure(들)는 개인화된 캡션 생성을 위한 맥락을 제공하는 프로필 역할을 했다. SCICAP Challenge Dataset이 데이터 크기를 줄이고 제한된 컴퓨팅 자원을 가진 소규모 연구실의 참여를 지원하기 위해 각 arXiv 논문을 최대 4개의 Figure로 제한했기 때문에, LAMP-CAP의 각 대상 Figure는 최대 3개의 프로필 Figure를 가질 수 있다.

데이터셋 통계. SCICAP Challenge Dataset의 분할(즉, 80/10/10 훈련/검증/테스트)을 따라, LAMP-CAP은 110,828개의 대상 Figure를 포함한다: 훈련용 86,197개, 검증용 12,361개, 테스트용 12,270개. 이 중에서 54,680개(49.3%)가 하나의 프로필 Figure를 가졌고, 26,193개(23.6%)가 두 개를, 30,027개(27.1%)가 세 개를 가져서 총 197,075개의 프로필 Figure가 있었다. Figure가 하나뿐인 논문들은 제외되었는데, 대상-프로필 쌍을 형성하기 위해서는 최소 두 개의 Figure가 필요하기 때문이다. Figure 유형과 프로필 개수별 자세한 데이터 분할은 부록 A에 있다.

4 Experimental Results

4개 LLM 평가 설정: GPT-4o, Llama 4 Scout, Gemini 2.5 Flash Preview, GPT-4.1 Mini
3가지 프로필 사용 조건 테스트: 프로필 없음, 1개 프로필, 모든 프로필 사용
주요 실험 결과들:
- 프로필 정보 사용시 모든 모델에서 캡션 품질 일관된 향상 (BLEU, ROUGE 기준)
- 모든 프로필 사용이 1개 프로필보다 우수한 성능
- 동일 Figure 유형 프로필 사용시 개인화 효과 증대
- 프로필-대상 캡션 유사성이 높을 때 개인화 효과 극대화
평가 방법: 참조 기반 메트릭으로 원저자 캡션과의 유사성 측정

Table 1: Performance of LLMs on caption generation with varying profile settings. Using profile figures— especially all available ones—consistently enhanced performance across all models.

Table 2: LLM performance on figures with one profile figure. Personalization is more effective when the pro- file and target figures share the same type (n=8,083) than when they differ (n=4,120).

Figure 2: BLEU-4 and ROUGE-2 scores on LAMP-CAP’s Context-Aligned and Context-Misaligned subsets across LLMs and profile settings. Personalization is more effective when at least one profile caption closely matches the target caption (a-1, a-2).

[Translated by Claude]

실험 설정. 우리는 LAMP-CAP을 사용하여 개인화된 캡션 생성에 대해 네 개의 LLM을 평가했다: (i) GPT-4o (Hurst et al., 2024), (ii) Llama 4 Scout (MetaAI, 2025), (iii) Gemini 2.5 Flash Preview (DeepMind, 2024), 그리고 (iv) GPT-4.1 Mini (OpenAI, 2024). 처음 세 개는 대형 모델이고, 마지막 하나는 더 작은 모델이다. 우리는 GPT-4o에는 OpenAI의 API를, 다른 모델들에는 OpenRouter (openrouter.ai)를 사용했다. 더 많은 프로필 정보가 성능을 향상시킨다는 이전 연구를 바탕으로 (Tan et al., 2024), 우리는 프로필 입력의 양을 달리하여 세 가지 캡션 생성 설정을 테스트했다: (1) 프로필 없음: 모델이 대상 Figure의 이미지와 Figure를 언급하는 단락들만을 사용하여 캡션을 생성했다. (2) 하나의 프로필: 모델이 (1)과 동일한 소스를 사용했지만 추가로 개인화를 위해 무작위로 선택된 하나의 프로필 Figure를 사용했다. (3) 모든 프로필: 모델이 (1)과 동일한 소스를 사용했지만 추가로 개인화를 위해 모든 프로필 Figure들을 사용했다. (전체 프롬프트는 부록 B 참조.) 생성 후, 우리는 실제 캡션의 일부가 아닌 불필요한 추론 단계나 설명을 제거하여 출력을 정리했다. 또한 모델이 어떤 출력도 생성하지 못한 경우들(12,259개 중 56개)도 제거했다. 부록 C는 자세한 데이터 정리 절차를 설명하고, 부록 D는 이 연구에서 사용된 평가 패키지를 설명한다.

프로필 정보 사용은 캡션을 정답과 더 유사하게 만들며, 특히 모든 프로필 Figure를 사용할 때 그렇다. 표 1은 BLEU와 ROUGE를 사용하여 평가된 네 개의 LLM의 개인화된 캡션 생성 결과를 보여준다. 우리는 생성된 캡션이 원래 저자가 작성한 캡션과 얼마나 밀접하게 일치하는지 측정하기 위해 참조 기반 메트릭을 사용했으며, 이는 LongLaMP (Kumar et al., 2024)와 같은 잘 알려진 연구에서 사용된 개인화된 텍스트 생성의 표준 평가 접근법을 따른 것이다. 결과는 프로필 정보를 통합하는 것이 모든 네 모델에서 일관되게 캡션 품질을 향상시킨다는 것을 보여준다. 또한, 모든 프로필 Figure를 사용하는 것이 하나만 사용하는 것보다 더 나은 결과를 제공한다. 모델과 프로필 구성에 따른 자세한 성능 분포는 부록 E에 있다.

프로필 Figure가 대상 Figure와 동일한 유형을 공유할 때, 개인화가 더 잘 작동한다. SCICAP Challenge 데이터셋은 Figure 유형들(예: 그래프 플롯, 산점도)을 제공했으며, 이를 통해 Figure 유형이 개인화된 캡션 생성에 어떻게 영향을 미치는지 조사할 수 있었다. 우리는 대상 Figure가 하나의 프로필 Figure만을 가진 경우에 초점을 맞춰, 프로필 Figure 유형이 대상 Figure와 일치하는 경우(예)와 그렇지 않은 경우(아니오)로 나누었다. 표 2는 프로필 Figure가 대상 Figure와 동일한 유형을 공유할 때 캡션이 정답에 더 가까웠다는 것을 보여준다.

프로필 캡션이 대상 캡션과 매우 유사할 때 개인화가 더 효과적이다. Figure 유형 연구(표 2)에서 영감을 받아, 우리는 대상 캡션과 유사한 프로필 캡션이 개인화를 향상시키는지 조사했다. 테스트 세트의 각 대상 Figure에 대해, 우리는 BERTScore (Zhang et al., 2020)를 사용한 의미적 유사성과 ROUGE-L (Lin, 2004)을 사용한 어휘적 유사성을 프로필 캡션과 대상 캡션 사이에서 계산했다. (부록 F는 자세한 점수 분포를 보여준다.) 그런 다음 각 대상 Figure의 가장 높은 유사성 점수로 테스트 세트를 정렬하고 두 메트릭에서 높은 유사성을 가진 상위 25%의 데이터 포인트를 선택하여 2,513개의 대상 Figure를 가진 Context-Aligned 세트를 만들었다. 테스트 세트의 나머지 9,690개 대상 Figure는 Context-Misaligned 세트를 형성했다. Figure 2는 적어도 하나의 프로필 캡션이 정답 캡션과 매우 유사할 때 개인화가 더 효과적임을 보여준다 (Figure 2a-1과 2a-2). 프로필이 Context-Misaligned 세트에서도 여전히 도움이 되지만 (Figure 2b-1과 2b-2), 그 영향은 눈에 띄게 더 작다. 자세한 결과는 부록 F에서 찾을 수 있다.

4.1 Ablation Study

GPT-4o 모델로 One Profile 설정에서 Ablation 연구 수행
3가지 프로필 요소별 제거 실험: 캡션, 이미지, 단락 각각 제거
중요도 순위 확인: 캡션 > 이미지 > 단락
- 캡션 제거시 가장 큰 성능 하락 (생성 직접 안내 역할)
- 이미지 제거가 단락 제거보다 더 큰 영향 (시각적 정보의 중요성)
멀티모달 프로필에서 각 구성 요소의 상대적 기여도 명확화

Figure 3: Ablation study on caption generation by re- moving one profile element at a time (caption, image, or figure-mentioning paragraph). Captions contribute the most, followed by images, then paragraphs.

[Translated by Claude]

캡션이 가장 중요한 프로필 요소이며, 이미지가 단락보다 더 영향력이 있다. 각 프로필 요소의 중요성을 평가하기 위해, 우리는 One Profile 설정에서 GPT-4o 모델을 사용하여 테스트 세트에 대한 절제 연구를 수행했다. 우리는 한 번에 하나의 프로필 요소를 제거하여 세 가지 조건을 테스트했다: (i) Figure 캡션 제거 (No Caption), (ii) Figure 이미지 제거 (No Image), 그리고 (iii) Figure를 언급하는 단락 제거 (No Paragraph). Figure 3은 결과를 보여준다. 캡션을 제거하는 것이 가장 중요한 영향을 미쳤는데, 이는 캡션이 생성을 직접적으로 안내하기 때문이다. 이미지를 제거하는 것도 단락을 제거하는 것보다 성능을 더 감소시켜 시각적 정보의 더 큰 영향력을 강조했다. 부록 G는 자세한 결과를 보여준다.

5 Discussion

LAMP-CAP 결과 요약: 시각적 프로필 요소가 개인화된 캡션 생성 향상, 프로필 정보량 증가시 성능 추가 개선
연구 확장 가능성: 멀티모달 프로필이 텍스트 생성 외 멀티모달 추천 등 다운스트림 애플리케이션에도 활용 가능
기존 연구와의 공통점: 프로필-대상 간 유사성 부족시 LLM 효과성 감소 (콜드 스타트 문제)
향후 방향성: 더 광범위한 LLM 개인화를 위한 멀티모달 프로필 연구 확대 필요성 제시

[Translated by Claude]

LAMP-CAP을 통한 우리의 결과는 프로필에 시각적 요소들(Figure 이미지들)을 포함하는 것이 개인화된 캡션 생성을 향상시키며, 더 많은 프로필 정보가 성능을 더욱 개선한다는 것을 보여준다. 우리의 연구가 개인화된 텍스트 생성에만 초점을 맞췄지만, Zhang et al.은 LLM 기반 개인화된 텍스트 생성과 추천 시스템과 같은 다운스트림 애플리케이션 간의 깊은 연관성을 강조했으며, 이는 멀티모달 프로필이 멀티모달 추천을 포함하여 텍스트 생성을 넘어선 작업들에도 도움이 될 수 있음을 시사한다. 우리의 발견은 또한 프로필이 유사성을 결여할 때 LLM 효과성이 감소한다는 Zhang et al.이 언급한 도전과제들을 반영하며—이는 저자원 환경에서의 콜드 스타트 시나리오와 연결된 문제이다. 우리는 우리의 결과가 연구 커뮤니티가 더 광범위한 LLM 개인화를 위한 멀티모달 프로필을 탐구하도록 격려하기를 희망한다.

6 Conclusion and Future Work

LAMP-CAP 데이터셋 기여: 멀티모달 프로필 기반 과학적 Figure 개인화 캡션 생성 연구 기반 마련
핵심 발견: 4개 언어 모델에서 프로필 사용시 캡션 개인화 효과 입증
향후 연구 방향:
- 프로필 구성 요소 확장 연구
- 교차 도메인 일반화 능력 탐구
- 인간 평가를 통한 실질적 효용성 검증
실용적 응용: 사용자 문서 맥락 분석 기반 개인화 캡션 생성 어시스턴트 개발 진행 중

[Translated by Claude]

우리는 멀티모달 프로필을 사용한 과학적 Figure의 개인화된 캡션 생성을 위한 새로운 데이터셋인 LAMP-CAP을 소개했고, 프로필이 4개의 언어 모델에서 캡션을 더 개인화시킨다는 것을 보여주었다. 향후 연구에는 프로필 구성 요소 확장, 교차 도메인 일반화 탐구, 인간 평가 수행이 포함된다. 우리는 또한 사용자 자신의 문서 맥락을 분석하여 개인화된 캡션을 생성하는 캡션 작성 어시스턴트를 개발하고 있다.

7 Limitations

데이터 구조적 한계: 동일 논문 내 다중 Figure 가정으로 인한 적용 범위 제한 (단일 Figure 논문 제외, 초기 단계 논문 작성 제약)
저자 개인화 부재: 공동 저술 환경의 복잡성으로 개별 저자 기반 개인화 미구현
데이터 오염 위험: 발표된 데이터셋 사용으로 인한 소형 LLM에도 남아있는 오염 가능성
평가 방법론 한계: 원래 캡션과의 유사성 중심 평가로 실제 품질/유용성 검증 부족
- 향후 인간 평가 필요성 강조

[Translated by Claude]

우리는 이 연구에서 몇 가지 한계를 인정한다.

첫째, 우리의 접근법은 각 Figure가 동일한 arXiv 논문에서 나온 프로필 Figure들을 가진다고 가정하지만, 이는 항상 참이 아니며, 특히 우리가 제외한 Figure가 하나뿐인 논문의 경우 그렇다. 이 가정은 또한 개인화를 위한 맥락이 부족할 수 있는 초기 단계 논문 작성에서의 실용적 사용을 제한한다.
둘째, 우리는 개인화 프로필에 개별 저자 정보를 포함하지 않았는데, 이는 대부분의 논문이 공동 저술되며 서로 다른 Figure와 캡션이 서로 다른 저자에 의해 작성될 수 있기 때문이다. 저자 기반 개인화가 그들의 과거 작업을 사용하여 탐구될 수 있지만, 학술 글쓰기의 협업적 특성이 이를 어렵게 만든다.
셋째, 데이터 오염 위험을 줄이기 위해 더 작은 LLM(GPT-4.1 Mini)을 사용했음에도 불구하고, 발표된 데이터(SCICAP Challenge 데이터셋)의 사용은 일부 위험이 여전히 남아있음을 의미한다.
마지막으로, 우리의 평가는 원래 캡션과의 캡션 유사성에 초점을 맞췄는데, 이는 캡션 품질을 보장하지 않는다. 높은 유사성은 프로필이 맥락과 스타일을 포착한다는 것을 시사하지만, 캡션이 독자에게 유용하다는 것을 보장하지는 않는다. 향후 연구는 캡션 품질과 유용성을 평가하기 위한 인간 평가를 포함해야 한다.

8 Ethics Statements

LLM 텍스트 생성의 본질적 위험성: 부정확하거나 오해를 불러일으키는 정보 생성 가능성
학술 맥락에서의 특별한 우려: 독자 오도 가능성으로 인한 심각한 결과
위험 완화 방안: 논문 저자의 생성 캡션 검토 및 수정 과정 필수화
안전 장치 제안: 인간 검증 없이 제시되는 경우 AI 생성 캡션임을 명확히 표시 필요

[Translated by Claude]

LLM을 사용하여 텍스트를 생성하는 것은 본질적으로 부정확하거나 오해를 불러일으키는 정보를 생성하는 것을 포함하여 위험을 수반한다. 학술적 맥락에서, 그러한 오류는 독자들을 오도할 수 있다. 우리의 접근법은 생성된 캡션을 검토하고 수정해야 하는 논문 저자들을 참여시킴으로써 이러한 위험을 최소화한다. 만약 캡션이 우리의 의도와 달리 인간의 검증 없이 독자들에게 제시된다면, 시스템은 캡션이 원저자가 작성한 것이 아니라 AI가 생성한 것임을 명확히 표시해야 한다.

A LAMP-CAP Dataset Details

Figure 4는 각 데이터 분할에서 Figure 유형의 상세한 분류를 제공한다.

Figure 5는 각 데이터 분할에서의 상세한 분포를 제공한다.

Figure 4: Data split of LAMP-CAP by figure type. The dataset contains 307,903 figures from 110,828 scientific papers, split into training (80%), validation (10%), and testing (10%) sets. Each set includes target and profile figures. The five main figure types are a) Graph Plot, b) Node Diagram, c) Equation, d) Bar Chart, and e) Scatterplot. Graph plots are the most common figure type across all splits.

Figure 5: Profile distribution in LAMP-CAP, showing the number of target figures with 1, 2, or 3 profile fig- ures.

B Prompts

이 섹션에서는 섹션 4에서 사용한 프롬프트를 제공한다. [IMG-TARGET]과 [PARA-TARGET]은 대상 Figure의 인코딩된 이미지와 Figure를 언급하는 단락들을 나타낸다. [num_profiles]는 사용된 프로필의 수를 표시하고, [profile_index]는 특정 프로필의 인덱스를 나타낸다. [IMG-PROFILE], [PARA-PROFILE], [CAP-PROFILE]은 각각 프로필 Figure의 인코딩된 이미지, Figure를 언급하는 단락들, 캡션에 해당한다.

Prompt with No Profile.

Prompt with Profile.

C Generation Output Cleaning Procedure

3단계 데이터 정리 프로세스 구현으로 평가 정확성 확보
1단계: 파싱 오류 식별 및 제거 (11개 사례, 잘못된 캡션 포착 문제)
2단계: GPT-4o-mini를 활용한 자동 정리
- 추론 단계, Figure 인덱스, 무관한 접두사/접미사 제거
- 100개 샘플 인간 평가에서 100% 정확도 확인
3단계: 키워드 필터링과 수동 검증으로 생성 실패 사례 제거 (총 56개 문제 사례)
정리 과정의 투명성: 구체적인 프롬프트와 예시 제공으로 재현 가능성 보장

Table 3: Examples of invalid generation across different language models and profile configurations

D Text Preprocessing and Evaluation

텍스트 전처리 파이프라인: 소문자 변환, 구두점 제거, 공백 정규화의 3단계 표준화 과정
평가 메트릭 구현: 표준 NLP 라이브러리 활용으로 평가 신뢰성 확보
- BLEU 점수: NLTK 3.9.1 (SmoothingFunction 적용)
- ROUGE 메트릭: Google rouge_scorer 0.1.2
재현성 보장: 구체적인 패키지 버전과 모듈명 명시로 정확한 실험 복제 가능

E Detail about Caption Evaluation

부록 E의 목적: 섹션 4 주요 캡션 생성 연구 결과의 상세 보완 자료 제공
Figure 7: 4개 언어 모델별 프로필 구성에 따른 BLEU-4 점수 분포 시각화
Figure 8: 4개 언어 모델별 프로필 구성에 따른 ROUGE-2 점수 분포 시각화
평가 메트릭별 성능 분포: 모델과 프로필 설정 조합의 세부적인 성능 변화 패턴 분석 자료

Figure 7: Distribution of the BLEU-4 across different LLMs and profile configuration.

Figure 8: Distribution of the ROUGE-2 across different LLMs and profile configuration.

F Context-Alignment Data Partition

부록 F의 목적: 맥락 정렬 기반 데이터 분할 실험의 상세 분석 자료 제공
Figure 6: 대상-프로필 캡션 간 유사성 점수(BERTScore, ROUGE-L) 분포 시각화
성능 비교 분석:
- 표 4: Context-Aligned 하위 집합(높은 유사성)에서의 모델별 성능
- 표 5: Context-Misaligned 하위 집합(낮은 유사성)에서의 모델별 성능
맥락 정렬 효과 검증: 프로필-대상 간 유사성이 개인화 성능에 미치는 영향의 정량적 증명 자료

Figure 6: Distribution of BERTScore (left) and ROUGE-L (right) metrics between Target and Profile captions in the LAMP-CAP Test Set. Both these scores share a left-shifted skewed unimodal distribution. The BERTScore plot shows that the provided profile captions for each target are very semantically related. On the other hand, the broader spread of ROUGE-L scores shows that profile captions exhibit low lexical overlap. High semantic relatedness and lexical variety motivates our use of profile captions as key style indicators for personalization.

Table 4: Performance on LAMP-CAP Context-aligned Subset (n=2,513) across LLMs and profile configura- tions.

Table 5: Performance on LAMP-CAP Context- Misaligned Subset (n=9,690) across LLMs and profile configurations.

G Detailed Result of Ablation Study

부록 G의 목적: 4.1절 절제 연구 결과의 상세 보완 자료 제공
표 6: 프로필 구성 요소별 제거 실험의 정량적 성능 결과
- 캡션, 이미지, 단락 각각 제거시 성능 변화 세부 데이터
구성 요소 중요도 검증: 각 멀티모달 프로필 요소의 개인화 기여도 정량적 증명 자료

H Disclosure of AI Assistance

AI 도구 사용 공개: 연구 투명성을 위한 AI 지원 도구 사용 내역 명시
Perplexity 활용 목적: 논문 교정 및 텍스트 품질 개선 작업 지원
연구 윤리 준수: AI 도구 사용에 대한 명확한 공개로 학술적 투명성 확보

728x90

LIST

'논문' 카테고리의 다른 글

arXiv에 논문 제출하는 방법 (0)	2025.01.06
과학 글쓰는 방법 (feat. 연구계획서, 논문작성법) (1)	2023.10.21
논문 / Textbook 공부 법 (읽는 법) (0)	2023.09.25
좋은 논문, 좋은 Journal 검색 방법(feat. 과학기술 자료) (0)	2023.09.16

시간의 농도

[논문 리뷰] LAMP-CAP: Personalized Figure Caption GenerationWith Multimodal Figure Profiles (25.06)

1 Introdction

2 Related Work

3 LAMP-CAP Dataset

4 Experimental Results

4.1 Ablation Study

5 Discussion

6 Conclusion and Future Work

7 Limitations

8 Ethics Statements

A LAMP-CAP Dataset Details

B Prompts

C Generation Output Cleaning Procedure

D Text Preprocessing and Evaluation

E Detail about Caption Evaluation

F Context-Alignment Data Partition

G Detailed Result of Ablation Study

H Disclosure of AI Assistance

'논문' 카테고리의 다른 글

티스토리툴바

[논문 리뷰] LAMP-CAP: Personalized Figure Caption GenerationWith Multimodal Figure Profiles (25.06)

1 Introdction

2 Related Work

3 LAMP-CAP Dataset

4 Experimental Results

4.1 Ablation Study

5 Discussion

6 Conclusion and Future Work

7 Limitations

8 Ethics Statements

A LAMP-CAP Dataset Details

B Prompts

C Generation Output Cleaning Procedure

D Text Preprocessing and Evaluation

E Detail about Caption Evaluation

F Context-Alignment Data Partition

G Detailed Result of Ablation Study

H Disclosure of AI Assistance

'논문' 카테고리의 다른 글

관련글

티스토리툴바