＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【付録１】Windows 10専用：ローカルLLM導入の基本手順

対象読者：

Windows 10（Home/Pro）を使用している一般ユーザー
Python環境に不慣れでも試してみたい方

手順概要：

1. Pythonの導入（公式）

https://www.python.org/downloads/windows/

推奨バージョン：Python 3.10以上

インストール時に「Add Python to PATH」に必ずチェック

2. パッケージ管理：pipの更新

python -m pip install --upgrade pip

3. 仮想環境（venv）の作成

python -m venv llm_env
llm_env\Scripts\activate

4. 依存ライブラリの導入

pip install torch transformers accelerate

5. 小型LLM（例：GPT2やTinyLLaMAなど）の起動例

from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "sshleifer/tiny-gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

input_text = "The future of AI is"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=30)
print(tokenizer.decode(outputs[0]))

注意点：

GPUがない場合、出力までに数十秒かかることもあります。

途中でPCが固まる場合、VRAM不足かPython環境の衝突が原因です。

---
【付録２】GPU非搭載PCユーザーのための軽量化・高速化の工夫

1. モデルサイズの見直し：

通常のGPT-2（117M）はCPUでも対応可能。

distilgpt2 や tiny-gpt2 などを利用すると安定動作しやすい。

2. 精度よりも体験重視：

高度な応答より「応答するという経験」に主眼を置く。

日本語モデルより、まずは英語モデルで起動に成功することを優先。

3. 処理の効率化：

推論回数や最大トークン長を制限する：

outputs = model.generate(**inputs, max_length=20, do_sample=True)

無理にGUIを使わず、コマンドライン起動で省リソース化。

4. メモリとCPUの最適化：

Windowsの「パフォーマンス優先」設定推奨

バックグラウンドアプリの常駐を最小限に

---
【付録３】Linux（Ubuntu）ユーザー向け：本格サーバ運用の初歩

対象：

Ubuntu 20.04以降
GPU搭載のローカルマシン or クラウドVM（Google Cloud, AWS, etc.）

1. 環境構築手順：

sudo apt update && sudo apt upgrade
sudo apt install python3-pip python3-venv build-essential git

2. CUDAとPyTorchの導入（NVIDIA公式）

NVIDIA公式：https://developer.nvidia.com/cuda-downloads

CUDA Toolkit 11.8 などをインストール

PyTorchは対応するCUDA版を選ぶ：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

3. 小型LLMの起動（CLI向け）

git clone https://github.com/huggingface/transformers.git
cd transformers/examples/pytorch/text-generation
pip install -r requirements.txt
python run_generation.py \
    --model_type=gpt2 \
    --model_name_or_path=gpt2 \
    --length=30 \
    --prompt "Ubuntu is" \
    --device cuda

4. サーバ公開用Tips：

gradio や fastapi でAPI化可能

ポート転送の際は ufw allow 7860 等でポートを開放

ssh越しのtmuxやscreenを用いた管理が便利

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝