PlusMagi's Blog By Pitt Phunsanit AI,Homebrew,macOS,Programs,Python,Unix-like,Windows Whisper: เสียงกระซิบจาก video

Whisper: เสียงกระซิบจาก video

Whisper คือ Automatic Speech Recognition (ASR) หรือระบบแปลงเสียงเป็นข้อความ (Speech-to-Text) อัจฉริยะแบบ Step-by-Step สำหรับ 3 ระบบปฏิบัติการหลัก ทั้ง Mac, Windows และ Linux ครับ


📌 สิ่งที่ต้องเตรียมก่อนติดตั้ง (Prerequisites)

ก่อนจะไปเจาะลึกแต่ละ OS ทุกระบบจำเป็นต้องมี 2 สิ่งนี้เป็นพื้นฐานหลักครับ

  1. Python: แนะนำเวอร์ชัน 3.9 - 3.11 (Whisper รองรับ Python เป็นหลัก)
  2. FFmpeg: ตัวจัดการไฟล์มัลติมีเดีย (จำเป็นมาก เพราะ Whisper ใช้ย่อยไฟล์เสียง)

วิธีติดตั้งบน macOS 🍏

วิธีที่เร็วที่สุดในปัจจุบันคือการติดตั้งผ่าน Homebrew ซึ่งจะจัดการคอมไพล์ระบบให้เข้ากับชิปในเครื่องของคุณโดยอัตโนมัติครับ

  1. ติดตั้งตัวโปรแกรม
    เปิด Terminal แล้วรันคำสั่งเดียวจบ
    brew install whisper-cpp
  2. ไปที่สร้าง folder ขึ้นมา เช่น
    mkdir -p /Users/common/Models
    cd /Users/common/Models
  3. ดาวน์โหลดโมเดลมาใช้งาน ก่อนจะแปลงไฟล์เสียง ต้องโหลดไฟล์โมเดล (ฟอร์แมต .bin ของ ggml) มาไว้ในเครื่องก่อน โดยเลือกขนาดตามต้องการ (เช่น tiny, base, small, medium, large-v3) สำหรับภาษาไทยแนะนำ small หรือ medium ขึ้นไปครับคุณสามารถโหลดโมเดลผ่านคำสั่ง curl ไปไว้ที่โฟลเดอร์ปัจจุบันได้เลย
    ตัวอย่างการโหลดโมเดลขนาด base
    curl -L -o ggml-base.bin https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.bin

วิธีติดตั้งบน Windows 🪟

สำหรับ Windows หากคุณมีการ์ดจอ Nvidia (CUDA) จะช่วยให้แปลงเสียงได้เร็วขึ้นมหาศาลครับ

  1. ติดตั้ง Python
    1. ดาวน์โหลด Python 3.10 หรือ 3.11 จาก python.org
    2. สำคัญมาก: ตอนติดตั้ง ให้ติ๊กถูกที่ช่อง “Add python.exe to PATH” ก่อนกด Install
  2. ติดตั้ง FFmpeg
    1. ดาวน์โหลด FFmpeg แบบ Build พร้อมใช้งานจาก Gyan.dev (เลือกแบบ ffmpeg-release-essentials.zip)
    2. แตกไฟล์ไปไว้ที่ C:\commom\ffmpeg
    3. ค้นหาคำว่า “Environment Variables” ใน Windows Search -> เลือก Edit the system environment variables
    4. คลิก Environment Variables… -> ในช่อง System variables ดับเบิ้ลคลิกที่ Path
    5. กด New แล้วใส่ C:\common\ffmpeg\bin ลงไป จากนั้นกด OK
  3. ติดตั้ง PyTorch (เลือกตามการ์ดจอ)
    • หากมีการ์ดจอ Nvidia (แนะนำ): ไปที่ pytorch.org เพื่อรับคำสั่งติดตั้งเวอร์ชัน CUDA หรือรัน
      pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
    • หากใช้ CPU ปกติ
      pip3 install torch torchvision torchaudio
  4. ติดตั้ง Whisper
    เปิด Command Prompt หรือ PowerShell (Run as Administrator) แล้วรัน
    pip install git+https://github.com/openai/whisper.git

วิธีติดตั้งบน Linux (Ubuntu/Debian) 🐧

  1. อัปเดตระบบและติดตั้ง FFmpeg & Python
    เปิด Terminal แล้วรันชุดคำสั่งนี้
    sudo apt update && sudo apt upgrade -y
    sudo apt install python3-pip python3-dev ffmpeg git -y
  2. ติดตั้ง PyTorch
    • สำหรับเครื่องที่มี Nvidia GPU (ติดตั้งไดรเวอร์ CUDA แล้ว
      pip3 install torch torchvision torchaudio
    • สำหรับเครื่องที่ใช้ CPU อย่างเดียว
      pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
  3. ติดตั้ง Whisper
    pip3 install git+https://github.com/openai/whisper.git

🚀 วิธีเปิดใช้งาน Whisper (Testing)

เมื่อติดตั้งเสร็จเรียบร้อยแล้ว ไม่ว่าจะใช้ OS ไหน คุณสามารถทดสอบใช้งานได้ผ่าน Terminal / Command Prompt ทันที เตรียมไฟล์เสียงของคุณ (เช่น audio.mp3) จากนั้นเปิด Terminal ในโฟลเดอร์นั้นแล้วรัน
whisper audio.mp3 --model base


อ่านเพิ่มเติม