<aside> 💡 LLM 모델의 성능 평가 방식

</aside>

<aside> 💡 성능 평가

</aside>

LLM 모델의 성능을 평가하는 게 다른 모델들 평가하는 거와 다르게, 인간의 주관적인 평가 방식에 따라 평가가 달라질 수 있고 정확한 수치로 평가하기가 어렵습니다.

(챗 지피티가 만들어내는 응답을 누구는 괜찮다 여기고 누구는 별로라 여긴다는 상황 떠올리면 이해가 쉽습니다.)

그래서 주로 인간의 주관적인 평가가 개입되는 데 주관적인 평가에는 한계가 있습니다.

그래서 BERT Score이용하여 평가를 진행하는 게 낫겠다고 생각했고,

❓왜 BLEU와 ROUGE는 채택하지 않는가?

위 두 방법은 문장 사이에 동시에 등장하는 단어나 토큰의 정확한 일치만으로 문장을 평가합니다. 따라서, 두 문장에서 의미가 유사하거나 통사구조가 다양할 경우에는 같은 문장이 아닌 아예 다른 문장으로 평가하는 오류를 범하는 것 같습니다.

모델 자체의 평가가 어렵기 때문에 모델이 생성해내는 문장들과 그 문장들에 대한 정답을 제공하여, 정답 문장과 평가 문장의 유사도를 측정하는 방식으로 성능을 평가했습니다.

BERT 모델 때문에 GPU 필요

<aside> 💡 데이터 증강된 후의 eeve 모델 BERT score

</aside>

Untitled

어디가 아파서 왔어요

목이 언제부터 아팠어요?

약 만들어줄게요! 다 먹으면 나을거에요ㅠㅠ