Whisper คือ Automatic Speech Recognition (ASR) หรือระบบแปลงเสียงเป็นข้อความ (Speech-to-Text) อัจฉริยะแบบ Step-by-Step สำหรับ 3 ระบบปฏิบัติการหลัก ทั้ง Mac, Windows และ Linux ครับ
📌 สิ่งที่ต้องเตรียมก่อนติดตั้ง (Prerequisites)
ก่อนจะไปเจาะลึกแต่ละ OS ทุกระบบจำเป็นต้องมี 2 สิ่งนี้เป็นพื้นฐานหลักครับ
- Python: แนะนำเวอร์ชัน
3.9 - 3.11(Whisper รองรับ Python เป็นหลัก) - FFmpeg: ตัวจัดการไฟล์มัลติมีเดีย (จำเป็นมาก เพราะ Whisper ใช้ย่อยไฟล์เสียง)
วิธีติดตั้งบน macOS 🍏
วิธีที่เร็วที่สุดในปัจจุบันคือการติดตั้งผ่าน Homebrew ซึ่งจะจัดการคอมไพล์ระบบให้เข้ากับชิปในเครื่องของคุณโดยอัตโนมัติครับ
- ติดตั้งตัวโปรแกรม
เปิด Terminal แล้วรันคำสั่งเดียวจบbrew install whisper-cpp - ไปที่สร้าง folder ขึ้นมา เช่น
mkdir -p /Users/common/Models
cd /Users/common/Models - ดาวน์โหลดโมเดลมาใช้งาน ก่อนจะแปลงไฟล์เสียง ต้องโหลดไฟล์โมเดล (ฟอร์แมต
.binของ ggml) มาไว้ในเครื่องก่อน โดยเลือกขนาดตามต้องการ (เช่นtiny,base,small,medium,large-v3) สำหรับภาษาไทยแนะนำsmallหรือmediumขึ้นไปครับคุณสามารถโหลดโมเดลผ่านคำสั่งcurlไปไว้ที่โฟลเดอร์ปัจจุบันได้เลย
ตัวอย่างการโหลดโมเดลขนาด basecurl -L -o ggml-base.bin https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.bin
วิธีติดตั้งบน Windows 🪟
สำหรับ Windows หากคุณมีการ์ดจอ Nvidia (CUDA) จะช่วยให้แปลงเสียงได้เร็วขึ้นมหาศาลครับ
- ติดตั้ง Python
- ดาวน์โหลด Python 3.10 หรือ 3.11 จาก python.org
- สำคัญมาก: ตอนติดตั้ง ให้ติ๊กถูกที่ช่อง “Add python.exe to PATH” ก่อนกด Install
- ติดตั้ง FFmpeg
- ดาวน์โหลด FFmpeg แบบ Build พร้อมใช้งานจาก Gyan.dev (เลือกแบบ
ffmpeg-release-essentials.zip) - แตกไฟล์ไปไว้ที่
C:\commom\ffmpeg - ค้นหาคำว่า “Environment Variables” ใน Windows Search -> เลือก Edit the system environment variables
- คลิก Environment Variables… -> ในช่อง System variables ดับเบิ้ลคลิกที่ Path
- กด New แล้วใส่
C:\common\ffmpeg\binลงไป จากนั้นกด OK
- ดาวน์โหลด FFmpeg แบบ Build พร้อมใช้งานจาก Gyan.dev (เลือกแบบ
- ติดตั้ง PyTorch (เลือกตามการ์ดจอ)
- หากมีการ์ดจอ Nvidia (แนะนำ): ไปที่ pytorch.org เพื่อรับคำสั่งติดตั้งเวอร์ชัน CUDA หรือรัน
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 - หากใช้ CPU ปกติ
pip3 install torch torchvision torchaudio
- หากมีการ์ดจอ Nvidia (แนะนำ): ไปที่ pytorch.org เพื่อรับคำสั่งติดตั้งเวอร์ชัน CUDA หรือรัน
- ติดตั้ง Whisper
เปิด Command Prompt หรือ PowerShell (Run as Administrator) แล้วรันpip install git+https://github.com/openai/whisper.git
วิธีติดตั้งบน Linux (Ubuntu/Debian) 🐧
- อัปเดตระบบและติดตั้ง FFmpeg & Python
เปิด Terminal แล้วรันชุดคำสั่งนี้sudo apt update && sudo apt upgrade -y
sudo apt install python3-pip python3-dev ffmpeg git -y - ติดตั้ง PyTorch
- สำหรับเครื่องที่มี Nvidia GPU (ติดตั้งไดรเวอร์ CUDA แล้ว
pip3 install torch torchvision torchaudio - สำหรับเครื่องที่ใช้ CPU อย่างเดียว
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
- สำหรับเครื่องที่มี Nvidia GPU (ติดตั้งไดรเวอร์ CUDA แล้ว
- ติดตั้ง Whisper
pip3 install git+https://github.com/openai/whisper.git
🚀 วิธีเปิดใช้งาน Whisper (Testing)
เมื่อติดตั้งเสร็จเรียบร้อยแล้ว ไม่ว่าจะใช้ OS ไหน คุณสามารถทดสอบใช้งานได้ผ่าน Terminal / Command Prompt ทันที เตรียมไฟล์เสียงของคุณ (เช่น audio.mp3) จากนั้นเปิด Terminal ในโฟลเดอร์นั้นแล้วรันwhisper audio.mp3 --model base
อ่านเพิ่มเติม