본문 바로가기
728x90
SMALL

논문7

[논문 리뷰] Principled Instructions Are All You Need forQuestioning LLaMA-1/2, GPT-3.5/4 (24.01) 논문은 LLM(대규모 언어 모델) prompting과 querying의 과정을 간소화하기 위해 26가지 가이드 지침을 소개합니다. 우리의 목표는 다양한 규모의 LLM에 대한 질문을 구성하는 기본 개념을 단순화하고, 그 성능을 테스트하고, 다양한 프롬프트를 입력할 때 다양한 규모의 LLM의 동작에 대해 사용자의 이해도를 높이는 것입니다. 명령어와 프롬프트 설계에 제안된 원칙이 효과가 있는 것을 증명하기 위해 LLaMA-1/2(7B, 13B, 70B), GPT-3.5/4에서 광범위한 실험을 수행했습니다. 우리는 이 작업이 LLM의 프롬프트를 연구하는 연구자들에게 더 나은 가이드를 제공하기를 바랍니다. 프로젝트 페이지는 다음 링크(https://github.com/VILA-Lab/ATLAS)에서 확인할 수 있.. 2024. 3. 3.
[논문 리뷰] Data-Juicer: A One-Stop Data Processing System for LargeLanguage Models (23.10) (this version, v2) LLM의 엄청난 발전은 다양하고 다량의 높은 품질의 데이터의 중요성을 강조했습니다. 데이터 레시피(data recipe)는 LLM을 훈련하기 위한 다양한 소스 데이터들을 혼합한 것으로, LLM의 성능을 결정하는 가장 중요한 요인으로 알려져있습니다. 존재하는 오픈 소스 도구는 주로 특정 데이터 레시피를 준비하는데에 맞춰져 있습니다. LLM의 잠재력을 지속적으로 발견하고, 새로운 소스로 부터 데이터를 통합(incorporate), LLM의 성능을 향상시키기 위해, 우리는 Data-Juicer라 불리는 새로운 시스템을 개발했습니다, 시스템을 통해 다양한 데이터 레시피를 효율적으로 생산하고, 데이터 혼합물을 형성하는 다양한 가능성을 탐색하며, 그리고 모델의 성능에 미치는 영향을 평가할 수 있습니다. 전통적인 데.. 2023. 11. 3.
[논문 리뷰] A PARADIGM SHIFT IN MACHINE TRANSLATION:BOOSTING TRANSLATION PERFORMANCE OF LARGELANGUAGE MODELS (23.09) 생성형 LLM은 다양한 NLP 테스크에 대해 놀라운 진전을 이뤄냈습니다. 그러나, 이러한 진전은 번역 문제에 대해서는 반영되지 않아습니다, 특히 중간 규모 모델(7B 또는 13B 파라미터)은 기존의 supervised encoder-decoder 번역 모델들보다 뒤쳐져 있습니다. 기존 연구들은 중간 규모 모델의 번역 능력을 향상시키기 위해 시도한 적이 있지만, 그들의 성과는 제한적이었습니다. 본 연구에서는 전통적으로 번역 모델이 의지했던 방대한 parallel data가 필요하지 않은, 번역 테스크를 위해 특별히 설계된 LLM에 대한 새로운 fine-tuning 접근 방식을 제안한다. 2단계의 fine-tuning 으로 구성된 접근 방식: 단일 언어에 대한 초기 fine-tuning + 소규모 고품질 p.. 2023. 11. 1.
과학 글쓰는 방법 (feat. 연구계획서, 논문작성법) 연구 계획서 작성하는 방법 제목 설계 (Title Design): 이 부분에서는 연구의 핵심 주제를 간결하게 나타내는 제목을 제안합니다. 제목은 연구의 내용을 요약하고 주요 관심사를 나타내야 합니다. 문제의 정의 및 필요성 (Problem Definition and Significance): 연구 주제의 중요성과 관련 문제를 정의합니다. 연구가 왜 필요한지, 어떤 사회적 또는 학문적 이슈를 다루는지 설명합니다. 기존 연관 연구결과의 조사 (Review of Related Work): 해당 분야의 이전 연구나 문헌을 조사하고, 연구 주제와 관련된 이전 연구 결과를 간단히 요약합니다. 이로써 연구의 현존 지식 기반을 보완할 수 있습니다. 연구의 구체적 목표 (Specific Research Objective.. 2023. 10. 21.
논문 / Textbook 공부 법 (읽는 법) 1. Searching study materials 2. Reading Study List Set (current list: less than 5~10, candidate list: no limits) - 읽을 연구에 대해서 적어도 5-10개 정도 유지하면서 계속해서 논문을 읽어야 함. 3. First study(reading): Abstract, Figure, Introduction and Reading Decision (Stay, remove, update) -> Study(Reading) - Abstract, Figure, Introduction을 읽어보고 읽을 것인지 판단하기 - 판단(읽을지, 없앨 것인지) 후, 공부할 것 4. Not to Z learning with one textbook(pa.. 2023. 9. 25.
Orca: Progressive Learning from ComplexExplanation Traces of GPT-4 (정리중) - 제목 : Orca: Progressive Learning from Complex Explanation Traces of GPT-4 - Abstract 최근 연구들은 대규모 생성 모델(LFM)을 바탕으로 모방 학습을 통해 더 작은 모델의 기능을 향상시키는데 초점을 맞추고 있다. shallow LFM 결과물로 제한된 학습으로 만들어지고, 소규모의 균질한(동일한) 훈련 데이터 그리고 가장 주목할 것은 엄격한 평가의 부족으로 인해 작은 모델의 기능을 과대 평가하는 스타일은 모방하는 법은 배우지만, LFM의 추론과정을 배우지는 않고, 이러한 모델의 품질에는 여러가지 이슈들이 영향을 미칩니다. 출처 Orca: Progressive Learning from Complex Explanation Traces of G.. 2023. 9. 19.
728x90
LIST