การจะดูว่าเครื่องรันโมเดลขนาดกี่ B ( Billions of Parameters ) ได้นั้น ปัจจัยที่สำคัญที่สุดไม่ใช่ความเร็ว ( Clock Speed ) แต่คือ “ขนาดของหน่วยความจำ” ( Memory Size ) ครับ โดยเฉพาะ VRAM บนการ์ดจอ
นี่คือหลักการคำนวณและวิธีตรวจสอบแบบเข้าใจง่ายครับ
1. สูตรคำนวณเบื้องต้น ( The 2x Rule )
โดยปกติแล้ว พารามิเตอร์ 1 ตัว ( 1b ) ในรูปแบบมาตรฐานจะใช้พื้นที่ประมาณ 2 Bytes ( FP16 ) แต่ในวงการ Local AI เรามักใช้การบีบอัดที่เรียกว่า Quantization ( 4-bit ) ซึ่งเป็นระดับที่นิยมที่สุดเพราะยังคงความฉลาดไว้ได้แต่กินสเปกน้อยลง
สูตรคำนวณคร่าวๆ สำหรับ 4-bit Quantization
จำนวน B x 0.7 = จำนวน GB ( VRAM / RAM ) ที่ต้องใช้ ( บวกเผื่อ Context Window หรือความจำสำรองตอนคุยอีกประมาณ 1-2 GB )
2. วิธีตรวจสอบ Hardware
การ์ดจอ ( GPU ) – สำคัญที่สุด
AI รันบน GPU ได้เร็วกว่า CPU หลายเท่า สิ่งที่คุณต้องดูคือ VRAM ( Video RAM )
- วิธีดู: กด
Ctrl + Shift + Esc( Task Manager ) > ไปที่แถบ Performance > คลิก GPU > ดูค่า Dedicated GPU Memory - เกณฑ์การรัน
- VRAM 4GB: รันได้สูงสุดประมาณ 3b
- VRAM 8GB: รันได้สูงสุดประมาณ 8b ( แบบบีบอัด 4-bit หรือ 5-bit)
- VRAM 12GB: รัน 8b ได้ลื่นไหลมาก หรือขยับไปลอง 12b – 14b แบบบีบอัดสูงได้
- VRAM 16GB – 24GB: รัน 14b – 20b ได้สบาย หรือรัน 30b แบบบีบอัดได้
RAM ( System Memory ) – แผนสำรอง
หาก VRAM ไม่พอ โปรแกรมอย่าง Ollama หรือ LM Studio จะโยนข้อมูลส่วนที่เหลือไปลงที่ RAM เครื่องแทน ( เรียกว่า Offloading )
- ข้อดี: ทำให้รันโมเดลใหญ่กว่า VRAM ได้ ( เช่น มี VRAM 8GB แต่อยากรันโมเดล 30b )
- ข้อเสีย: ช้ามาก จนอาจจะใช้งานจริงไม่ได้ ( ยกเว้น Mac ตระกูล M1/M2/M3 ที่ใช้ Unified Memory จะทำส่วนนี้ได้ดีกว่า PC ทั่วไปมาก )
CPU – ตัวประมวลผลเสริม
CPU ไม่ได้เป็นตัวกำหนดว่า “รันกี่ B ได้” แต่เป็นตัวกำหนดว่า “จะตอบเร็วแค่ไหน” หากคุณไม่ได้ใช้การ์ดจอเลย ( ใช้เฉพาะ CPU รัน ) คุณควรมี RAM อย่างน้อย 16GB-32GB เพื่อรันโมเดลขนาด 7b-8b
3. สรุปตารางประเมินผล ( สำหรับ 4-bit Quantization )
การเลือกโมเดลตามประเภทงานดังนี้ครับ
- เน้นความไว ( ใช้งานทั่วไป ): ใช้โมเดล 8b ( เช่น Llama 3 ) จะตอบโต้ทันทีเหมือนคุยกับคนจริง ๆ
- เน้นงานยาก/เขียนโค้ด: หากเครื่องคุณมี RAM 24GB ขึ้นไป ให้ลอง 14b หรือ 27b ( เช่น Gemma 2 27b ) จะเริ่มเห็นความฉลาดที่ต่างออกไปมาก
- เน้นความรู้รอบตัว: หากมี RAM 64GB+ คุณสามารถรัน 70b ซึ่งฉลาดใกล้เคียง ChatGPT-4 ได้ในเครื่องตัวเองเลย
วิธีเช็คแบบชัวร์ที่สุด ( ไม่ต้องเดา )
ผมแนะนำให้ใช้เครื่องมือเหล่านี้ตรวจสอบ
- Can I Run It?: ในโปรแกรมอย่าง LM Studio เมื่อคุณค้นหาโมเดล มันจะมีแถบสีบอกเลยว่า “Should fit in memory” ( รันได้ ) หรือ “Likely to fit” ( อาจจะรันได้ ) โดยมันจะคำนวณจากสเปกเครื่องคุณตอนนั้นทันที
- Ollama: หากรันแล้วเครื่องค้างหรือตอบช้าเกินไป ( ต่ำกว่า 1-2 tokens/sec ) แสดงว่าโมเดลนั้นใหญ่เกินไปสำหรับเครื่องคุณครับ
อ่านเพิ่มเติม