<aside> 💡 LLM 모델의 성능 평가 방식
</aside>
<aside> 💡 성능 평가
</aside>
LLM 모델의 성능을 평가하는 게 다른 모델들 평가하는 거와 다르게, 인간의 주관적인 평가 방식에 따라 평가가 달라질 수 있고 정확한 수치로 평가하기가 어렵습니다.
(챗 지피티가 만들어내는 응답을 누구는 괜찮다 여기고 누구는 별로라 여긴다는 상황 떠올리면 이해가 쉽습니다.)
그래서 주로 인간의 주관적인 평가가 개입되는 데 주관적인 평가에는 한계가 있습니다.
그래서 BERT Score이용하여 평가를 진행하는 게 낫겠다고 생각했고,
❓왜 BLEU와 ROUGE는 채택하지 않는가?
위 두 방법은 문장 사이에 동시에 등장하는 단어나 토큰의 정확한 일치만으로 문장을 평가합니다. 따라서, 두 문장에서 의미가 유사하거나 통사구조가 다양할 경우에는 같은 문장이 아닌 아예 다른 문장으로 평가하는 오류를 범하는 것 같습니다.
모델 자체의 평가가 어렵기 때문에 모델이 생성해내는 문장들과 그 문장들에 대한 정답을 제공하여, 정답 문장과 평가 문장의 유사도를 측정하는 방식으로 성능을 평가했습니다.
BERT 모델 때문에 GPU 필요
<aside> 💡 데이터 증강된 후의 eeve 모델 BERT score
</aside>

어디가 아파서 왔어요
목이 언제부터 아팠어요?
약 만들어줄게요! 다 먹으면 나을거에요ㅠㅠ