ในกระบวนการเริ่มต้นออกแบบคลังคำศัพท์ (Thesaurus) ปัญหาใหญ่ที่สุดของนักวิเคราะห์ระบบ (System Analyst) และสถาปนิกข้อมูล (Data Architect) คือการเลือกฟอร์แมตข้อมูลที่สามารถอ่านเข้าใจได้ง่ายทั้งมนุษย์และระบบคอมพิวเตอร์ โดยไม่ต้องพึ่งพาซอฟต์แวร์ประมวลผลขนาดใหญ่ ISO 25964-1 Plain Text Format เป็นรูปแบบข้อความดิบ (Flat-file structure) ที่ระบุในมาตรฐานไอโซ่ เพื่อใช้ในการแลกเปลี่ยน รวบรวม และตรวจสอบข้อมูลคำศัพท์แบบ Line-by-Line นิยมใช้อย่างแพร่หลายในขั้นตอนการทำ Data Mapping, การใช้สคริปต์อัตโนมัติ (เช่น .NET, Python) เข้าไป Parse ข้อมูล และเก็บไว้ในระบบควบคุมเวอร์ชัน (Git)
โครงสร้างและไวยากรณ์ (Syntax)
รูปแบบนี้จะยึดหลักเกณฑ์รหัสตัวย่อสองอักษร (Tags) นำหน้าข้อมูลในแต่ละบรรทัด โดยมีเงื่อนไขบังคับทางโครงสร้างดังนี้
- PT (Preferred Term): คำหลักมาตรฐานที่เป็นตัวตั้ง (บังคับมี 1 ตัวต่อ 1 บล็อกข้อมูล)
- LG (Language): รหัสภาษามาตรฐาน ISO 639-1 (เช่น th, en)
- SN (Scope Note): คำอธิบายขอบเขตและข้อจำกัดความหมายของคำศัพท์
- USE / UF (Equivalence): แท็กนำทางคำพ้องความหมาย
- BT / NT (Hierarchical): แท็กระบุระดับความสัมพันธ์ภาพกว้างและภาพแคบ
- RT (Associative): แท็กระบุความสัมพันธ์แนวระนาบที่มีบริบทเกี่ยวเนื่องกัน
- การแบ่งบล็อก: ใช้บรรทัดว่าง (Blank Line) หรือเครื่องหมาย
#ในการแยกแต่ละคำศัพท์ออกจากกัน
ตัวอย่างมาร์กอัปใช้งานจริง
# ------------------------------------------------------------------------
# ISO 25964-1 Text Export File v1.0
# Core Module: Energy Trading & Risk Management
# ------------------------------------------------------------------------
PT: Spot Deal
LG: en
UF: ธุรกรรมซื้อขายทันที
UF: สัญญารายครั้ง
UF: Spot Contract
SN: ข้อตกลงในการซื้อขายสินทรัพย์ในราคาตลาดปัจจุบัน โดยจะต้องชำระเงินและส่งมอบสินทรัพย์ภายใน 2 วันทำการ
BT: Deal Type
RT: Fixed Price
RT: Floating Price
PT: ธุรกรรมซื้อขายทันที
LG: th
USE: Spot Deal
PT: ดีลส่วนต่างดัชนีเรือ
LG: th
UF: FFA
UF: Forward Freight Agreement
SN: ดีลอนุพันธ์ประเภทหนึ่งที่จัดอยู่ในหมวดขนส่งทางเรือ ใช้สำหรับล็อกต้นทุนราคาและบริหารความเสี่ยงด้านค่าระวางเรือล่วงหน้า
NT: การเช่าเหมาเรือ
ข้อดีและข้อจำกัด
- ข้อดี: มนุษย์เปิดอ่านและแก้ไขผ่าน Text Editor ทั่วไปได้ทันที, เขียนโค้ดโปรแกรมเข้าไปอ่านและตัดคำแยกคอลัมน์ (String Parsing) ได้ง่ายมาก, มีโหลดการประมวลผลต่ำที่สุด
- ข้อจำกัด: ไม่สามารถตรวจสอบโครงสร้าง (Validation) ลิงก์ที่ขัดแย้งกันเองแบบอัตโนมัติได้เหมือนระบบ Graph, ไม่เหมาะสำหรับการเชื่อมต่อข้ามระบบในรูปแบบ Web API ยุคใหม่
อ่านเพิ่มเติม