데이터셋 증강 및 성능 평가

<aside> 💡 LLM 모델의 성능 평가 방식

</aside>

BERTScore 방식 사용 : 모델이 생성한 후보 문장과 사람이 직접 만든 레퍼런스 문장 간의 의미적 유사성을 평가하는 지표 - 컨텍스트 임베딩을 사용하여 토큰 유사도 계산
- 참조 문장과 생성 문장을 각각 BERT모델에 입력하여 문맥 벡터(contextual embedding)를 구한 후 토큰쌍마다 코사인 유사성을 평가한 후 각 토큰에 가중치를 부여함
BLEU : 기계번역의 품질을 평가하는 데 사용되는 지표
ROUGE : 문서 요약의 품질을 평가하는 데 사용되는 지표

<aside> 💡 성능 평가

</aside>

LLM 모델의 성능을 평가하는 게 다른 모델들 평가하는 거와 다르게, 인간의 주관적인 평가 방식에 따라 평가가 달라질 수 있고 정확한 수치로 평가하기가 어렵습니다.

(챗 지피티가 만들어내는 응답을 누구는 괜찮다 여기고 누구는 별로라 여긴다는 상황 떠올리면 이해가 쉽습니다.)

그래서 주로 인간의 주관적인 평가가 개입되는 데 주관적인 평가에는 한계가 있습니다.

그래서 BERT Score이용하여 평가를 진행하는 게 낫겠다고 생각했고,

❓왜 BLEU와 ROUGE는 채택하지 않는가?

위 두 방법은 문장 사이에 동시에 등장하는 단어나 토큰의 정확한 일치만으로 문장을 평가합니다. 따라서, 두 문장에서 의미가 유사하거나 통사구조가 다양할 경우에는 같은 문장이 아닌 아예 다른 문장으로 평가하는 오류를 범하는 것 같습니다.

모델 자체의 평가가 어렵기 때문에 모델이 생성해내는 문장들과 그 문장들에 대한 정답을 제공하여, 정답 문장과 평가 문장의 유사도를 측정하는 방식으로 성능을 평가했습니다.

BERT 모델 때문에 GPU 필요

<aside> 💡 데이터 증강된 후의 eeve 모델 BERT score

</aside>

Untitled

어디가 아파서 왔어요

목이 언제부터 아팠어요?

약 만들어줄게요! 다 먹으면 나을거에요ㅠㅠ