Model Card for Model ID
Model Details
Model Description
외국에서 만들어진 글로벌 LMM 오픈소스를 그대로 오프라인에서 사용하는 한국어 LLM 사용자를 위해 한국 정서, 역사, 기업문화/업무, 문서생성, 법률 데이터를 통해 한국어 기업용 LLM을 파인튜닝 하였습니다.
gpt-oss-20b를 파인튜닝 후 OSS-20B 대비 강화되는 능력을 정리하면:
한국어 문화·정서·톤 적합도↑
- 존대/반말, 회사 내 위계, 사회 규범·가치 판단을 더 자연스럽게 반영.
공공·정책·사회 이슈 Q&A 정확도↑
- 한국 역사·정치·외교·안보·사회문화 이슈를 한국 시각에서 설명·요약·비판하는 능력 강화.
기업 업무용 문서 생성력↑
- 기안/품의/보고/회의록/메일/PT·기획서 등 한국 기업 포맷을 제목·목적·간단한 입력만으로 자동 구성.
정형데이터→문서 변환 & 표/CSV 이해 능력↑
- 표/CSV/ERP 처리데이터를 받아 요약, 인사이트 도출, 이상징후 탐지, 자동 기안·정산 문서 생성.
한국 법·회계·금융 도메인 이해력↑
- K-IFRS, 계약서, 내부감사, 각종 법령·판례, 금융 공시 텍스트를 구조적으로 해석·요약·비교.
법률·금융 특화 한↔일/중 번역 품질↑
- 용어 일관성, 문체 유지, 조항 구조 유지 등 도메인 특화 번역 성능.
ERP 스타일 업무 지시 수행력↑
- “매출원가 집계해서 부서별 리포트 작성해줘” 같은 업무 지시를 단계적으로 해석하고 문서/요약 형태로 응답.
컴플라이언스·FDS 시나리오 이해력↑
- 규정 위반 케이스, 이상 거래 시나리오 설명·생성, 리스크 포인트 요약 등.
모델 요약
gpt-oss-safeguard-20b-kor-enterprisee는 gpt-oss-20b 기반으로,
약 274만 건의 한국 기업·법률·공공 도메인 데이터로 파인튜닝한 한국어 특화 LLM입니다.
- 🇰🇷 한국 문화·기업 업무 맥락 최적화
- 🧾 기안/품의/보고/정산 등 한국 기업 표준 양식 문서 자동 생성
- ⚖️ K-IFRS, 계약서, 판례, 공시 등 한국 법·회계·금융 텍스트 이해·요약
- 📊 표·CSV·ERP 데이터 기반 리포트/요약 생성
- 🌐 법률·금융 도메인 한↔일·중 번역
원본 OSS-20B 대비, 한국어 비즈니스/법률/데이터 처리형 태스크에 초점을 맞춰 성능을 강화했습니다.
사용 사례 (Intended Use)
기업 문서 작성 Copilot
- 기안서, 품의서, 보고서, 회의록, PT 초안, 이메일/메신저 답변 제안
- 표·숫자·CSV 기반 정산/정리/요약 문서 자동 생성
ERP/업무지시 보조
- ERP/회계/물류/HR 관련 자연어 지시 → 요약, 보고, 체크리스트, 문서화
한국 법률·회계·금융 리서치 보조
- K-IFRS 기준 설명, 계약서 조항 요약, 법령·판례 쟁점 정리
- 공시/판례/규정 텍스트 비교·요약·Q&A
컴플라이언스 & FDS 시나리오 도우미
- 규정 위반 유형 요약, FDS 룰/케이스 설명, 리스크 시나리오 브레인스토밍
도메인 특화 번역
- 한국어 ↔ 일본어/중국어: 금융·법률·공시·판례 텍스트 번역 및 요약
⚠️ 실제 법률·회계·규제 준수 여부 판단은 반드시 전문가 검토가 필요합니다. 이 모델은 의사결정 참고 용도로만 사용해야 합니다.
모델 설명
- Base model: gpt-oss-20b (20B 파라미터, 디코더 기반 LLM)
- 언어: 주로 한국어, 일부 일본어·중국어 (번역 도메인)
- 학습 방식: Supervised Fine-tuning (SFT)
OSS-20B 대비 강화된 능력
한국 문화·정체성·사회 규범 이해
- 64k건의 한국 문화/정체성/사회규범 데이터로 한국인의 의사소통 톤·예절·정서 표현 및 가치 판단 맥락을 내재화.
한국 중심 공공·정책·사회 이슈 Q&A
- 222k건의 한국 역사·사회문화·안보·정치·외교(한국 견해 중점) 데이터로 공공 이슈에 대한 한국 시각의 해석·설명·요약 능력 향상.
기업 업무 커뮤니케이션 & 문서 자동 생성
- 450k건의 이메일/보고서/회의/기획 등 일반 업무 대화·문서 데이터
- 268k건의 “문서명+목적만 제공” 방식 표준 양식 생성 데이터
- 139k건의 “처리 데이터→문서 작성” 데이터 → 최소 정보만으로도 한국 기업 표준 포맷의 문서를 구조화해 작성하는 능력이 크게 개선.
정형 데이터(표·CSV) 이해 및 리포트 생성
- 180k건의 실데이터 기반 표 분석/요약/이상징후 탐지 데이터
- 108k건의 CSV 정형데이터 로딩→정리→문서화 파이프라인 데이터 → OSS-20B 대비 표/CSV/ERP 데이터에서 인사이트를 뽑아 문서 형태로 정리하는 태스크에 특화.
한국 법률·회계·계약 문서 이해
- 71k건의 K-IFRS/내부감사/노동법/계약서 등 표준 법률 문서 (합성+REAL)
- 400k건의 판례·법령(민사·행정·지재·형사) REAL 데이터 → 조항 구조 파악, 논리 전개 요약, 쟁점 비교, 간단한 설명형 질의에 강점.
법률·금융 도메인 한↔일·중 번역
- 480k건의 금융 법률/공시/판례 번역 REAL 데이터 → 용어 일관성, 조항 번호·구조 보존, 문체 유지 등 도메인 특화 번역에 유리.
업무 지시 수행·시나리오 기반 응답
- 172k건의 ERP(회계·관리·물류·HR) 업무 지시 → 처리 데이터/결과 문서 매핑 데이터 → “~로써 ○○ 업무를 수행하라” 류의 명령형 프롬프트를 단계적으로 해석하는 능력 강화.
컴플라이언스·FDS 문맥 이해
- 40k건의 컴플라이언스 위반 및 FDS 탐지 시나리오 (합성+REAL) → 이상 거래 설명, 규정 위반 예시 생성, 리스크 요약 등에 강점.
학습 데이터 (요약)
총 약 2,747,418 샘플로 SFT.
| 구분 | 분류 | 건수 | 종류 |
|---|---|---|---|
| 한국 정체성·사회규범·가치 | 한국문화 | 64,000 | 합성 |
| 역사·사회문화·안보·정치·외교(한국 시각) | 한국지식 | 222,691 | 합성, REAL |
| 기업 문화/일반 업무(메일·보고·회의·PT·기획) | 기업업무 | 450,079 | 합성 |
| 일반 문서 작성(처리 데이터→문서) | 기업업무 | 150,000 | 합성 |
| 표준 양식 문서 (문서명+목적만 제공) | 문서작성 | 268,277 | 합성 |
| 표준 법률 문서(K-IFRS, 내부감사, 노동법, 계약) | 문서작성 | 71,903 | 합성, REAL |
| 표준 양식 문서 (처리 데이터 제공) | 문서작성 | 139,849 | 합성 |
| 표 기반 문서 읽기·분석 | 문서작성 | 180,000 | REAL |
| CSV 읽기·변환·문서화 | 문서작성 | 108,276 | 합성 |
| 금융 법률/공시/판례 번역(한↔일·중) | 번역 | 480,000 | REAL |
| ERP 업무 지시 수행(회계·관리·물류·HR) | 기업업무 | 172,343 | 합성 |
| 법 판례·법령(민사·행정·지재·형사) | 한국법률 | 400,000 | REAL |
| 법률 컴플라이언스 위반·FDS 탐지 | 한국법률 | 40,000 | 합성, REAL |
각 데이터셋은 내부 품질 점검 기준 정확도 90~99% 수준에서 필터링되었습니다.
한계 (Limitations)
- 일반 코딩·수학·다국어: 한국 기업·법률 도메인에 비해 일반적인 코딩/수학/SAT 스타일 문제나 타 언어는 성능이 상대적으로 낮을 수 있습니다.
- 실시간 법·규정 업데이트 미반영: 최신 개정 법령·규정·회계 기준이 반영되지 않을 수 있습니다.
- 법률·회계 자문 대체 불가: 실제 계약·소송·회계 처리 등에는 반드시 전문가 검토가 필요합니다.
- 편향 가능성: 한국 문화/기업/법 체계 중심 데이터로 인해, 다른 문화·법체계에 대한 답변은 편향되거나 부정확할 수 있습니다.
안전 및 윤리
- 모델 출력은 법률·회계·투자·의료 등 고위험 의사결정의 근거로 직접 사용하면 안 됩니다.
- 개인정보, 특정 개인·집단에 대한 차별·혐오 발언, 불법 행위 조장에 해당하는 사용을 제한해야 합니다.
- 금융 범죄·FDS 관련 데이터는 탐지·교육·연구 목적만을 위한 것이며, 모델을 이용해 우회·악용 시나리오를 구체적으로 설계해서는 안 됩니다.
사용 예시
import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import torch
from torch.nn import functional as F
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from peft import (
LoraConfig,
get_peft_model,
set_peft_model_state_dict
)
from peft import PeftModel
base_LLM_model = 'SEOKDONG/gpt-oss-safeguard-20b-kor-enterprise' #@param {type: "string"}
device = "auto" #@param {type: "string"}
model = AutoModelForCausalLM.from_pretrained(
base_LLM_model,
device_map=device,
trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)
model.config.pad_token_id = tokenizer.pad_token_id
model.half()
# pad_token 설정 (필수)
tokenizer.pad_token = tokenizer.eos_token
def gen(prompt: str):
messages = [
{"role": "system", "content": "당신은 한국어로 답하는 유능한 AI 비서입니다."},
{"role": "user", "content": prompt},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt",
truncation=True,
# 필요하면 명시: max_length=4096 등
).to(model.device)
# eos 후보들 만들고 None/중복 제거
eos_ids = []
if tokenizer.eos_token_id is not None:
eos_ids.append(tokenizer.eos_token_id)
try:
eot_id = tokenizer.convert_tokens_to_ids("<|eot_id|>")
# 모델/토크나이저에 따라서 unk_token_id 비교는 선택 사항
if eot_id is not None and eot_id != tokenizer.unk_token_id:
eos_ids.append(eot_id)
except Exception:
# 그런 토큰이 없을 수도 있으니 조용히 패스
pass
# HuggingFace generate는 int 또는 list 둘 다 허용
if len(eos_ids) == 0:
eos_arg = None # 그냥 모델 기본 eos 사용
elif len(eos_ids) == 1:
eos_arg = eos_ids[0]
else:
eos_arg = eos_ids
# pad_token_id 가 없는 모델이면 eos로 대체
pad_id = tokenizer.pad_token_id
if pad_id is None:
pad_id = tokenizer.eos_token_id if tokenizer.eos_token_id is not None else (eos_ids[0] if eos_ids else None)
outputs = model.generate(
input_ids,
pad_token_id=pad_id,
eos_token_id=eos_arg,
max_new_tokens=2048, # 2048도 가능, GPU 여유 보고 조절
do_sample=True,
temperature=0.1,
repetition_penalty=1.2,
# top_p=0.9 등 옵션 추가 가능
)
result = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
return result
gen("""한국 동쪽 바다의 이름을 알려주세요. 그리고 그 근거도 알려주세요""")
대한민국이 인접해 있는 동쪽 해역에는 ‘동해’라는 명칭이 국제적으로 널리 사용됩니다 (일본에서는 동일하게 “황해”라고 부르며, 이는 일본 정부·국제기구 일부에서 쓰는 표현이나, 한국과 중국 등 다른 국가들은 ‘동해’를 표준으로 채택하고 있습니다).
한반도의 동부를 둘러싼 주요 수역은 다음과 같습니다.
구분 일반적 지명/범위 대륙붕 전환 지역 황해안(영남권) → 동해안(강원·경북·충청 동부) 주된 항만 주변 해역 부산광역시 동해안(울산까지 포함되는 경우가 많음), 울진군·고성군 일대 국토와 가장 가까운 연안수면 강릉~속초 일대 동해상
근거 요약: 역사·지정학 관점: 조선 시대부터 ‘동해’라는 용어가 국내 문헌에 자주 등장하며, 현대에도 교육·정부 공식문서 및 지도에서 ‘대한민국 동해’ 또는 단순히 ‘동해’로 통용되어 왔습니다. 국제표준 맥락: UN코드네임스 시스템(U.N.Codes of the Sea)은 ‘Sea of Japan’을 제안했으나, 이 문제는 분쟁 대상이며 대부분의 나라들이 ‘East Sea’ 혹은 ‘Donghae’를 선호합니다. 다만 실제 운항·지도 제작 시엔 양측 모두 병기하거나 각국 표기를 따르는 경향이 큽니다. 법률·행정 기준: 행정안전부 산하 지명관리체계에서도 ‘동해’라는 표기가 우세하며, 지방자치단체별 해양관할 범위를 설명할 때 ‘동해안’이라는 표현이 반복됩니다.
간결 정답: 한국 입장에서는 ‘동해(Donghae)’가 올바른 표기로 인정되며, 특히 영유권·경제활동권 논란 속에서 이를 확립하려는 움직임이 지속되고 있습니다. 따라서 질문에 대한 직접적인 응답은 “동해”입니다. (참고로 일본 내외 일부 기관은 여전히 ‘황해(Haruka)'를 사용하지만, 이는 상이한 관습이지 한국의 표준이라 할 수 없습니다.)
라이선스 / 저작권
- Base model: gpt-oss-20b 라이선스 규정을 따릅니다.
- 파인튜닝 데이터: OpenAI 생성 합성 데이터 및 AI-Hub 등 공공/라이선스 준수 소스에서 수집·가공한 한국어 데이터로 구성되었습니다.
- 이 모델 사용자는 해당 라이선스와 각 데이터 소스의 이용 약관을 준수해야 합니다.
gpt-oss-safeguard-20b-kor-enterprisee
1. Model Overview
gpt-oss-safeguard-20b-kor-enterprisee is a Korean enterprise–focused Large Language Model (LLM) fine-tuned from gpt-oss-20b.
The model is designed for Korean users who currently rely on globally trained open-source LLMs (often used fully offline) but need stronger alignment with:
- Korean culture and communication norms
- Korean corporate workflows and document formats
- Korean law, accounting, and finance
- Structured data → document/report generation
To achieve this, the base model was fine-tuned on approximately 2.74M samples from Korean corporate, legal, public, and structured-data domains.
2. Motivation
Most open-source LLMs are trained primarily on English and global web data. For Korean enterprise users, this leads to several gaps:
- Limited understanding of Korean hierarchy, honorifics, and social norms
- Weak grasp of Korean corporate document formats and ERP-style instructions
- Insufficient coverage of Korean law, regulations, accounting (K-IFRS) and financial texts
- Generic handling of tables, CSV, ERP outputs, and weak integration into business documents
This model aims to close those gaps and provide a Korean business–ready LLM for offline or on-premise environments.
3. Key Improvements over gpt-oss-20b
3.1 Korean culture, tone, and social norms
- Better handling of honorific vs casual speech
- More natural reflection of corporate hierarchy, age/seniority, and context-appropriate tone
- Improved alignment with Korean social norms and values in explanations and judgments
3.2 Public / policy / social issue Q&A (Korean perspective)
Stronger ability to explain, summarize, and critique:
- Korean history, politics, diplomacy, security, and social issues
- From a Korea-centric viewpoint rather than a generic global view
3.3 Enterprise document generation
Given a document type + purpose + minimal input, the model can generate:
- Drafts of proposals, approvals, reports, meeting minutes
- Internal emails and messenger replies
- Presentation/plan outlines in typical Korean corporate formats
3.4 Structured data → document & insight
Given tables/CSV/ERP data, the model can:
- Summarize and describe key patterns
- Highlight anomalies or risk signals
- Generate drafts of approval, settlement, and report documents based on the data
3.5 Korean law, accounting, and finance understanding
Improved ability to parse and summarize:
- K-IFRS, audit reports
- Contracts and internal control documents
- Statutes, regulations, and case law
- Financial disclosure texts
Supports structured comparison and issue-spotting across legal and financial texts.
3.6 Domain-specific ko ↔ ja/zh translation
Enhanced translation for legal and financial domains:
- Terminology consistency
- Preservation of clause numbering and structure
- Stable, professional tone
3.7 ERP-style instruction following
Better at decomposing instructions such as: “Aggregate cost of sales and prepare a department-level report.”
Interprets multi-step ERP/accounting/logistics/HR instructions and responds with:
- Step-by-step reasoning
- Summaries, checklists, and documents
3.8 Compliance & FDS (Fraud Detection System) scenarios
Understands and generates scenarios related to:
- Policy violations
- Suspicious transaction patterns
- Risk points and high-level FDS logic
⚠️ The model is meant to assist in reasoning and documentation for such topics, not to implement or replace actual FDS systems.
4. Model Summary
Name: gpt-oss-safeguard-20b-kor-enterprisee
Base model: gpt-oss-20b (20B-parameter decoder-only LLM)
Languages:
- Primary: Korean
- Secondary (for translation tasks): Japanese, Chinese
Training method: Supervised Fine-Tuning (SFT) on Korean enterprise/legal/public domain data Total SFT samples: ≈ 2,747,418
Core strengths
🇰🇷 Optimized for Korean culture and corporate context
🧾 Auto-generation of Korean standard business forms
- Drafts of approvals, reports, settlements, minutes, proposals, etc.
⚖️ Understanding of Korean law, accounting, and finance texts
- K-IFRS, contracts, cases, regulations, disclosures
📊 Table/CSV/ERP data → report & summary
🌐 Domain-specific translation
- Korean ↔ Japanese/Chinese for legal, financial, and disclosure texts
Compared to the original OSS-20B, this model focuses on Korean business, legal, and structured-data processing tasks.
5. Intended Use
5.1 Enterprise document-writing copilot
Drafting:
- Approval forms, internal proposals, reports
- Meeting minutes, follow-up summaries
- Presentation/plan skeletons
- Emails and messenger replies
Auto-generating settlement/reconciliation/summary documents from:
- Tables
- CSV files
- ERP exports
5.2 ERP / business-instruction assistant
Handling natural-language commands related to:
- ERP, accounting, logistics, HR
- e.g., “Summarize department-level performance for Q3”
Producing:
- Summaries
- Checklists
- Draft reports and documents
5.3 Korean law / accounting / finance research assistant
Explaining K-IFRS and related accounting concepts
Summarizing contract clauses, statutes, regulations, and cases
Comparing and summarizing:
- Disclosures
- Case law
- Internal policies and guidelines
5.4 Compliance & FDS scenario support
- Summarizing regulation violation patterns
- Explaining FDS rules and example scenarios
- Brainstorming high-level risk scenarios (for education and internal documentation)
5.5 Domain-specific translation
Korean ↔ Japanese/Chinese for:
- Legal texts
- Financial disclosures
- Case law summaries
- Regulatory documents
⚠️ Important: The model must not be used as the sole basis for legal, accounting, or regulatory decisions. All outputs should be reviewed by qualified professionals.
6. Model Details
- Base model:
gpt-oss-20b, 20B parameters, decoder-only - Objective: Korean enterprise–centric adaptation of a general-purpose open-source LLM
- Training: Supervised fine-tuning (SFT) on curated Korean corporate/legal/public datasets
- Primary usage mode: On-premise / offline enterprise environments
7. Enhanced Capabilities vs OSS-20B (by data category)
7.1 Korean culture, identity, and social norms
Data: 64,000 samples
Domain: Korean culture, identity, social norms, values
Type: Synthetic
Effect:
- Internalizes Korean communication tone, politeness levels, emotional expressions, and value judgments.
7.2 Public / policy / social issue Q&A (Korean perspective)
Data: 222,691 samples
Domain: Korean history, socio-culture, security, politics, diplomacy (Korean point of view)
Type: Synthetic + real
Effect:
- Better at interpreting and summarizing public issues from a Korea-centric perspective.
7.3 Corporate communication & automatic document generation
450,079 samples: General business communication
- Emails, reports, meetings, planning docs, etc. (synthetic)
268,277 samples: “Only document title + purpose given”
- Standard form generation (synthetic)
139,849 samples: “Processing data → document”
- Given processed business data, generate structured documents (synthetic)
Together, these datasets significantly enhance the model’s ability to generate well-structured Korean corporate documents from minimal input.
7.4 Structured data (tables/CSV) understanding & reporting
180,000 samples:
- Real data for table reading, analysis, summarization, anomaly detection
108,276 samples:
- Synthetic CSV pipelines: loading → cleaning → documentation
These make the model more capable than the base OSS-20B at:
- Interpreting table/CSV/ERP outputs
- Extracting insights and anomalies
- Producing narrative reports and documents from structured input
7.5 Korean legal and accounting document understanding
71,903 samples:
- K-IFRS, internal audits, labor law, contracts (synthetic + real)
400,000 samples:
- Case law and statutes (civil, administrative, IP, criminal) – real
This strengthens the model’s ability to:
- Parse clause structures
- Summarize argumentation and reasoning
- Compare issues and provide high-level explanatory answers
7.6 Legal/financial ko ↔ ja/zh translation
480,000 samples:
- Real financial/legal/disclosure/case translation pairs
The model is tuned for:
- Terminology consistency
- Preservation of clause numbers and structure
- Stable, domain-appropriate tone
7.7 Business instruction following & scenario-based responses
172,343 samples:
- ERP-style instructions (accounting, management, logistics, HR)
- Mapped to processed data and resulting documents (synthetic)
This improves:
- Step-by-step interpretation of imperative prompts
- Task planning and document-oriented responses for enterprise workflows
7.8 Compliance & FDS context understanding
40,000 samples:
- Compliance violation scenarios and FDS detection patterns (synthetic + real)
The model becomes better at:
- Explaining suspicious transaction patterns
- Generating example violation scenarios
- Summarizing risk points at a narrative level
8. Training Data Summary
Total SFT samples: 2,747,418
| Category | Tag | Count | Type |
|---|---|---|---|
| Korean identity / social norms / values | Korean culture | 64,000 | Synthetic |
| History / socio-culture / security / politics / diplomacy (Korean view) | Korean knowledge | 222,691 | Synthetic, Real |
| Corporate culture / general business (mail, report, meeting, PPT, planning) | Enterprise work | 450,079 | Synthetic |
| General document drafting (data → document) | Enterprise work | 150,000 | Synthetic |
| Standard form documents (title + purpose only) | Doc generation | 268,277 | Synthetic |
| Standard legal documents (K-IFRS, audit, labor law, contracts) | Doc generation | 71,903 | Synthetic, Real |
| Standard forms (with processing data) | Doc generation | 139,849 | Synthetic |
| Table-based reading & analysis | Doc generation | 180,000 | Real |
| CSV reading / transformation / documentation | Doc generation | 108,276 | Synthetic |
| Financial/legal/disclosure/case translation (ko ↔ ja/zh) | Translation | 480,000 | Real |
| ERP instruction execution (accounting, management, logistics, HR) | Enterprise work | 172,343 | Synthetic |
| Case law / statutes (civil, administrative, IP, criminal) | Korean law | 400,000 | Real |
| Legal compliance violation & FDS detection | Korean law | 40,000 | Synthetic, Real |
All datasets were filtered using internal quality checks to maintain ≈90–99% accuracy levels.
9. Limitations
General coding / math / other languages
- Performance on generic coding, math, and non-Korean languages may be weaker than on the trained Korean enterprise/legal domains.
Legal & regulatory freshness
- The model may not reflect the latest amendments to laws, regulations, or accounting standards.
Not a substitute for professional advice
- Outputs should never be treated as final legal, accounting, or compliance opinions.
Cultural and legal bias
- The model is heavily centered on Korean culture and legal systems.
- Answers about other cultures or legal systems may be biased, incomplete, or inaccurate.
10. Safety & Ethical Considerations
High-risk domains
Do not use the model’s output as the sole basis for decisions in:
- Law
- Accounting / taxation
- Financial investment
- Medicine or other safety-critical domains
Privacy & data protection
- The model should not be used to generate or infer sensitive personal information.
- Do not prompt it with unredacted personal data.
Discrimination and harm
- The model must not be used to produce hateful, discriminatory, or violent content targeting individuals or groups.
Misuse of FDS / compliance data
- Fraud-related and compliance scenarios are provided for detection, education, and research.
- The model must not be used to design or refine concrete evasion strategies or illegal activity.
11. Responsible Use
Always keep a human in the loop, especially for:
- Legal documents
- Contracts and negotiations
- Financial disclosures and reports
- Compliance and risk assessments
Treat the model as a copilot for:
- Drafting
- Summarization
- Brainstorming
- Internal documentation
…not as an autonomous decision-maker.
인용 (Citation)
@misc{gpt-oss-20b-kor-enterprise,
title = {gpt-oss-20b-kor-enterprise: Korean Enterprise & Legal Fine-tuned LLM},
base_model = {gpt-oss-20b},
year = {2025},
howpublished = {\url{https://huggingface.co/your-org/gpt-oss-20b-kor-enterprise}}
}
- Downloads last month
- 98