본문 바로가기

트렌드 한눈에 보기/산업 트렌드

chatGPT-4o 블로그 글로 학습시키면 안되는 이유

OpenAI로부터 메일이 한통 왔다. 

 

나는 회사 계정으로 chatGPT plus를 사용하고 있고, 이번에 4o 버전에서도 fine tuning이 가능해졌기에 이를 홍보하는 글이었다. 3.5와는 비교가 안되는 4, 4o 버전에 항상 만족하며 사용하고 있던 참이었다. 내친 김에 지금껏 써왔던 블로그 글을 활용해서 chatGPT를 학습시켜볼까 싶었다.

 

Fine-tuning - OpenAI API

Data preparation and analysis for chat model fine-tuning | OpenAI Cookbook

 

방법은 위에 자세하게 나와 있지만, 구체적인 코드를 아래와 같이 공유해본다. 아래는 블로그 글을 활용하여 학습 데이터셋을 만드는 방법이다.

import json
import tiktoken # for token counting
import numpy as np
from collections import defaultdict

post1 = """
...무라니시 도루에 관한 블로그 글...
"""
request1 = """
넷플릭스 드라마 살색의 감독 무라니시에 대해 리뷰하는 글을 써줘. 실존 인물인 무라니시에 대해 설명해줘.
"""
system_content = """
너는 주어진 주제에 대해 설명하는 글을 쓰는 사람이야. 
"""
training_data = [
    {
        'messages': [{'role': 'system', 'content': system_content.strip()},
                     {'role': 'user', 'content': request1.strip()},
                     {'role': 'assistant', 'content': post1.strip()},]
    }, ... # 10개의 메시지 세트를 필요로 한다
]

# Saving each dictionary as a separate line in JSONL format
with open('training_dataset.jsonl', 'w') as file:
    for entry in training_data:
        file.write(json.dumps(entry, ensure_ascii=False) + '\n')

 

학습 데이터를 만들었으면 openAI에서 제공하는 UI를 통해 학습시킬 수도 있고 (https://platform.openai.com/finetune/)직접 코드를 통해 학습시킬 수도 있다. 나는 그냥 UI를 활용했다. 그 후에는 학습된 모델을 불러와서 쓰고 싶은 글을 작성하게 하면 된다.

 

from openai import OpenAI
client = OpenAI(api_key = openai.api_key)

new_request = """
...chatGPT로 블로그 글 쓰는 방법...
"""

completion = client.chat.completions.create(
  model="ft:...",
  messages=[
    {"role": "system", "content": system_content.strip()},
    {"role": "user", "content": new_request.strip() + ", 한글로 요약하고 설명해줘"}
  ]
)
print(completion.choices[0].message)
print(completion.choices[0].message.content)

 

결과는 뭐, 내 블로그 글이 GD만큼의 독창성을 갖지 않는 이상 "정말 내가 쓴 글 같다" 하는 느낌을 받긴 힘들다. 정작 내가 진짜로 썼던 과거의 글만 보더라도, "내가 이런 글을 썼나?" 하는 생각을 하게 되니까. 근데 문제는, 한 번 chatGPT로 글을 쓰고 나면 정작 내 글을 쓰기가 싫어진다는 것이다. 내가 뭐하러 깊이 생각해가면서 글을 써야 해? chatGPT가 한 방에 써주는데?

 

그렇기에 chatGPT로 글을 쓰는 것을 포기하는 바이다. 종종 일러스트까지 부탁해서 블로그에 써봤었지만, 오늘부로는 그런 것도 포기할란다. 필요하면 인터넷에서 찾고, 안되면 그려버리는 방식이, 오래걸리더라도 무의미해보이더라도 내 생각과 내 글이다.