Whisper: เสียงกระซิบจาก video

Whisper คือ Automatic Speech Recognition (ASR) หรือระบบแปลงเสียงเป็นข้อความ (Speech-to-Text) อัจฉริยะแบบ Step-by-Step สำหรับ 3 ระบบปฏิบัติการหลัก ทั้ง Mac, Windows และ Linux ครับ

📌 สิ่งที่ต้องเตรียมก่อนติดตั้ง (Prerequisites)

ก่อนจะไปเจาะลึกแต่ละ OS ทุกระบบจำเป็นต้องมี 2 สิ่งนี้เป็นพื้นฐานหลักครับ

Python: แนะนำเวอร์ชัน 3.9 - 3.11 (Whisper รองรับ Python เป็นหลัก)
FFmpeg: ตัวจัดการไฟล์มัลติมีเดีย (จำเป็นมาก เพราะ Whisper ใช้ย่อยไฟล์เสียง)

วิธีติดตั้งบน macOS 🍏

วิธีที่เร็วที่สุดในปัจจุบันคือการติดตั้งผ่าน Homebrew ซึ่งจะจัดการคอมไพล์ระบบให้เข้ากับชิปในเครื่องของคุณโดยอัตโนมัติครับ

ติดตั้งตัวโปรแกรม
เปิด Terminal แล้วรันคำสั่งเดียวจบ
brew install whisper-cpp
ไปที่สร้าง folder ขึ้นมา เช่น
mkdir -p /Users/common/Models cd /Users/common/Models
ดาวน์โหลดโมเดลมาใช้งาน ก่อนจะแปลงไฟล์เสียง ต้องโหลดไฟล์โมเดล (ฟอร์แมต .bin ของ ggml) มาไว้ในเครื่องก่อน โดยเลือกขนาดตามต้องการ (เช่น tiny, base, small, medium, large-v3) สำหรับภาษาไทยแนะนำ small หรือ medium ขึ้นไปครับคุณสามารถโหลดโมเดลผ่านคำสั่ง curl ไปไว้ที่โฟลเดอร์ปัจจุบันได้เลย
ตัวอย่างการโหลดโมเดลขนาด base
curl -L -o ggml-base.bin https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.bin

วิธีติดตั้งบน Windows 🪟

สำหรับ Windows หากคุณมีการ์ดจอ Nvidia (CUDA) จะช่วยให้แปลงเสียงได้เร็วขึ้นมหาศาลครับ

ติดตั้ง Python
1. ดาวน์โหลด Python 3.10 หรือ 3.11 จาก python.org
2. สำคัญมาก: ตอนติดตั้ง ให้ติ๊กถูกที่ช่อง “Add python.exe to PATH” ก่อนกด Install
ติดตั้ง FFmpeg
1. ดาวน์โหลด FFmpeg แบบ Build พร้อมใช้งานจาก Gyan.dev (เลือกแบบ ffmpeg-release-essentials.zip)
2. แตกไฟล์ไปไว้ที่ C:\commom\ffmpeg
3. ค้นหาคำว่า “Environment Variables” ใน Windows Search -> เลือก Edit the system environment variables
4. คลิก Environment Variables… -> ในช่อง System variables ดับเบิ้ลคลิกที่ Path
5. กด New แล้วใส่ C:\common\ffmpeg\bin ลงไป จากนั้นกด OK
ติดตั้ง PyTorch (เลือกตามการ์ดจอ)
- หากมีการ์ดจอ Nvidia (แนะนำ): ไปที่ pytorch.org เพื่อรับคำสั่งติดตั้งเวอร์ชัน CUDA หรือรัน
  pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
- หากใช้ CPU ปกติ
  pip3 install torch torchvision torchaudio
ติดตั้ง Whisper
เปิด Command Prompt หรือ PowerShell (Run as Administrator) แล้วรัน
pip install git+https://github.com/openai/whisper.git

วิธีติดตั้งบน Linux (Ubuntu/Debian) 🐧

อัปเดตระบบและติดตั้ง FFmpeg & Python
เปิด Terminal แล้วรันชุดคำสั่งนี้
sudo apt update && sudo apt upgrade -y sudo apt install python3-pip python3-dev ffmpeg git -y
ติดตั้ง PyTorch
- สำหรับเครื่องที่มี Nvidia GPU (ติดตั้งไดรเวอร์ CUDA แล้ว
  pip3 install torch torchvision torchaudio
- สำหรับเครื่องที่ใช้ CPU อย่างเดียว
  pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
ติดตั้ง Whisper
pip3 install git+https://github.com/openai/whisper.git

🚀 วิธีเปิดใช้งาน Whisper (Testing)

เมื่อติดตั้งเสร็จเรียบร้อยแล้ว ไม่ว่าจะใช้ OS ไหน คุณสามารถทดสอบใช้งานได้ผ่าน Terminal / Command Prompt ทันที เตรียมไฟล์เสียงของคุณ (เช่น audio.mp3) จากนั้นเปิด Terminal ในโฟลเดอร์นั้นแล้วรัน
whisper audio.mp3 --model base

อ่านเพิ่มเติม

ป้ายกำกับ:ASR, Audio, Automatic Speech Recognition, CPU, CUDA, ffmpeg, ggml, mp3, mp4, Nvidia, Python, PyTorch, Speech-to-Text, Video, Whisper, กระซิบ, การ์ดจอ, ข้อความ, มัลติมีเดีย, แปลงเสียง, โมเดล