ดูเหมือนว่าใกล้ที่เราจะได้ใช้ Generative AI ที่รองรับภาษาไทยกันในเร็วๆนี้แล้ว ล่าสุด เอสซีบี เท็นเอกซ์ (SCB 10X) เปิดตัว “ไต้ฝุ่น” (Typhoon) โมเดลภาษาขนาดใหญ่ที่พัฒนาขึ้นสำหรับภาษาไทยโดยเฉพาะ โมเดลที่ SCB 10X บอกว่าเป็นโมเดลที่ดีที่สุดในปัจจุบันและมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 ในภาษาไทย และจะเปิดให้ได้ทดลองเวอร์ชัน Pretrained model และเวอร์ชั่น Instruction-tuned model ผ่าน API service อย่างไม่มีค่าใช้จ่าย
สำหรับ LLM “ไต้ฝุ่น” SCB 10X พัฒนาขึ้น 2 เวอร์ชั่นคือ
- Pretrained Model – คือโมเดลที่มีการสอนให้เรียนรู้ภาษาไทย ไม่ว่าจะเป็นคลังคำศัพท์ บริบท หรือวัฒนธรรมของภาษาไทย รวมถึงความรู้ทั่วไปที่เกิดขึ้นทั่วโลก
- Instruction-tuned Model – คือการสอนต่ออีกขั้นหนึ่ง ให้โมเดลสามารถสื่อสารสิ่งที่เข้าใจจากขั้นตอนการ Pretraining ตามคำสั่งที่ป้อนเข้าไปได้ เช่น การแปล การสรุปความ หรือการตอบคำถาม เป็นต้น
สำหรับระดับความสามารถของ “ไต้ฝุ่น” มีการวัดจาก Benchmark ที่รวบรวมและจัดเตรียมมาจาก “ข้อสอบภาษาไทย” ความยากเทียบเท่า “ข้อสอบมัธยมปลาย” และข้อสอบมาตรฐานอื่นๆ ในประเทศไทย โดยไต้ฝุ่นถูกออกแบบมาเพื่อแก้ไขปัญหาช่องว่างทางภาษาที่โมเดลส่วนใหญ่ในปัจจุบันที่ถูกฝึกฝนเป็นภาษาอังกฤษเป็นหลัก รวมถึงข้อจำกัดด้านทรัพยากรของภาษาไทยที่ไม่มีข้อมูลมากเพียงพอ (Low Resource Language)
SCB 10X เปิดเผยว่าจากการทดลองในชุดข้อสอบภาษาไทยพบว่าว่า ไต้ฝุ่น มีประสิทธิภาพเหนือกว่าโมเดลภาษาไทยที่เผยแพร่สาธารณะอยู่ทั้งหมด และมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 ในภาษาไทย ซึ่งเป็นโมเดลที่อยู่เบื้องหลัง ChatGPT และเมื่อเปรียบเทียบแล้วมีประสิทธิภาพมากกว่า 2.62 เท่าในการอ่านข้อความภาษาไทย
นับว่าเป็นอีกก้าวสำคัญในการพัฒนาโมเดลภาษา AI สำหรับภาษาไทย และเป็นอีกก้าวของ SCB 10X ในการผลักดันความก้าวหน้าทางเทคโนโลยีให้กลุ่มเอสซีบี เอกซ์ (SCBX Group) สู่เป้าหมายการเป็น AI-First Organization ควบคู่กับการสร้างธุรกิจใหม่ ๆ ผ่านการเป็นผู้ให้บริการด้านโซลูชันและเทคโนโลยีขั้นสูง
SCB LLM “ไต้ฝุ่น” (Typhoon) เปิดให้ผู้สนใจและนักพัฒนาได้ทดลองใช้ Typhoon-7B ในเวอร์ชัน Pretrained model ภายใต้ใบอนุญาต Apache 2.0 อย่างไม่มีค่าใช้จ่าย โดยสามารถดาวน์โหลดได้ที่ https://huggingface.co/scb10x/typhoon-7b ซึ่งมีรายงานเชิงเทคนิคประกอบ สามารถอ่านเพิ่มเติมได้ที่ https://arxiv.org/abs/2312.13951 นอกจากนี้ผู้สนใจและนักพัฒนายังสามารถลงทะเบียนเพื่อรอทดลองใช้งานโมเดล Instruction-tuned เวอร์ชันเริ่มต้นในรูปแบบของ API ได้ในเร็วๆ นี้ ที่ https://opentyphoon.ai
การพัฒนา LLM ไต้ฝุ่นครั้งนี้ นอกจากจะเป็นการการพัฒนาโมเดลภาษาไทยขนาดใหญ่ให้มีประสิทธิภาพและความก้าวหน้าเพิ่มขึ้นแล้ว ยังจะสามารถเพิ่มขีดความสามารถด้านการแข่งขันให้แก่อุตสาหกรรม AI ของไทยได้ด้วย