หลังอยู่ในช่วงของการพัฒนามาเกือบ 2 ปี โมเดล “ThaiLLM” (Thai Large Language Model) หรือโครงสร้างพื้นฐานปัญญาประดิษฐ์สําหรับภาษาไทย ก็เปิดให้นักพัฒนาและบุคคลทั่วไปได้ทดลองใช้งานผ่านแพลตฟอร์ม ThaiLLM Playground แล้ว และกำลังจะเข้าสู่การพัฒนาในเฟส 2 ที่จะทำให้โมเดลตอบโจทย์การใช้งานจริงมากขึ้นด้วย
นับเป็นอีกมูฟเมนต์สำคัญที่ทำให้ไทยเข้าใกล้การสร้างอธิปไตยทางเทคโนโลยี AI (AI Sovereignty) ไปอีกขั้น ภายใต้เมกะโปรเจ็กต์ที่เกิดจากความร่วมมือของภาครัฐ และเอกชน โดยมีสถาบันข้อมูลขนาดใหญ่ (BDI) หน่วยงานสังกัดกระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม (ดีอี) เป็นแม่งาน
“ธีรณี อจลากุล” ผู้อำนวยการสถาบันข้อมูลขนาดใหญ่ (BDI) ย้ำถึงความจำเป็นที่ประเทศไทยต้องพัฒนา AI ของตนเองว่า เป็นการปกป้องผลประโยชน์ของประเทศในระยะยาว ท่ามกลางความไม่แน่นอนในสถานการณ์โลก หากเกิดความขัดแย้งที่ส่งผลกระทบต่อโครงสร้างพื้นฐาน เช่น การตัดสายเคเบิลอินเทอร์เน็ตใต้ทะเล ประเทศไทยอาจไม่สามารถเข้าถึงบริการ AI ของต่างชาติได้เลย
ขณะเดียวกันบริการ AI จากต่างประเทศอาจปรับขึ้นค่าบริการเมื่อใดก็ได้ การมี Foundation Model ภาษาไทยเป็นของตนเองจะช่วยให้ภาครัฐและอกชนควบคุมต้นทุนได้ในระดับหนึ่ง และลดค่าใช้จ่ายการดำเนินงานในระยะยาว รวมถึงป้องกันการรั่วไหลของข้อมูลในกรณีที่ข้อมูลมีความอ่อนไหวมาก ๆ และต้องจัดเก็บในประเทศเท่านั้น
“คนยังไม่ค่อยพูดถึงเรื่องการสร้างอธิปไตย AI ทั้งที่สำคัญมาก ๆ หลายประเทศพัฒนาแพลตฟอร์มของตนเองเพื่อเป็นหลักประกันว่าไม่ว่าจะเกิดอะไรขึ้นคนในประเทศก็ยังสามารถใช้ชีวิตได้ตามปกติ เช่น ญี่ปุ่น ที่ใช้ระบบแผนที่ของตนเองเป็นหลัก”
เฟสแรกโครงการ ThaiLLM มีการพัฒนา Foundation Model ThaiLLM ขนาด 8B และขนาด 30B ในลักษณะ Open License และ Open-Weight ที่นักพัฒนาดาวน์โหลดไปใช้ต่อยอดเป็น Fine-Tuned Model เฉพาะทาง โดยใช้ข้อมูลสาธารณะ และจากความร่วมมือของภาครัฐและเอกชน ซึ่งเป็นข้อมูลที่เกี่ยวข้องกับกฎหมาย ข้อมูลวิจัย และข้อมูลข่าวสารในบริบทไทย
พร้อมทั้งพัฒนาแพลตฟอร์ม ThaiLLM Playground ซึ่งให้บริการโมเดลของนักพัฒนาไทย เช่น PathummaLLM (NECTEC), THaLLE (KBTG), Typhoon (SCB DataX) และ OpenThaiGPT (AIEAT) ในรูปแบบ API สำหรับนักพัฒนาและ Chat Sandbox โดยได้รับการสนับสนุนด้านโครงสร้างพื้นฐานจาก บมจ.โทรคมนาคมแห่งชาติ (NT) และบริษัท SIAM.AI CLOUD
การพัฒนา ThaiLLM ในเฟสแรกใช้งบประมาณจากกองทุนดีอีราว 80 ล้านบาท โดยรวมถือว่าเป็นไปตามไทม์ไลน์ เพราะมีการเตรียมงานล่วงหน้าก่อนแล้ว ทั้งยังได้รับการสนับสนุนจากภาคีเครือข่ายต่อเนื่อง ไม่ว่าจะเป็นกระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัย และนวัตกรรม (อว.) ที่สนับสนุนเครื่องซูเปอร์คอมพิวเตอร์ LANTA ของเนคเทค สวทช. ให้เป็นโครงสร้างพื้นฐานด้านการประมวลผล, AIEAT, VISTEC, AIAT และอื่น ๆ อีกมากมาย
“หลังสร้าง Foundation Model ได้แล้ว ขั้นต่อไปคือสร้างการรับรู้ผ่านแพลตฟอร์ม ThaiLLM Playground เพื่อให้เกิดการต่อยอดและใช้งานจริง โดยตั้งแต่เปิดตัวช่วงต้นปี 2569 มีนักพัฒนาและผู้สนใจเข้ามาทดลองใช้งาน ThaiLLM Playground แล้ว กว่า 8,000 ราย”
สำหรับรูปแบบการนำไปต่อยอดในภาครัฐ เอกชน SMEs และสตาร์ตอัพมีทั้งหมด 2 รูปแบบ คือ 1.Fine-Tune & Self-Host การดาวน์โหลดโมเดลพื้นฐานไปติดตั้งบนโครงสร้างพื้นฐานของตนเอง เพื่อปรับแต่งให้ตอบโจทย์เฉพาะด้านและควบคุมความปลอดภัยของข้อมูลได้ 100% เหมาะสำหรับองค์กรขนาดใหญ่ และ 2.Build Application via API การพัฒนาแอปผ่านการเชื่อมต่อ API ช่วยองค์กรลดภาระต้นทุนด้านฮาร์ดแวร์
“ธีรณี” ยกตัวอย่างรูปแบบการต่อยอด เช่น โมเดลเฉพาะด้านการท่องเที่ยว สนับสนุนการตอบคำถามด้านการท่องเที่ยวของไทย และ Medical Chatbot ซึ่งเป็นโครงการของ VISTEC และ รพ.ศิริราช ใช้สนับสนุนบริการทางการแพทย์
“ปัจจุบันหน่วยงานต่าง ๆ สามารถนำโมเดลพื้นฐานของ ThaiLLM ไปพัฒนาและต่อยอดได้ฟรี ไม่มีค่าใช้จ่ายเพิ่มเติม”
“ธีรณี” พูดถึงการพัฒนา ThaiLLM ในเฟสต่อไปว่า จะมีการพัฒนาโมเดลแบบ Multimodal ให้เข้าใจมากกว่าข้อความ สามารถรองรับการประมวลผลกราฟิก รูปภาพ วิดีโอ และเสียงได้ด้วย รวมถึงเทรนข้อมูลให้รองรับการใช้งานภาษาถิ่น เพื่อให้ครอบคลุมบริบทและการใช้ของคนในท้องถิ่นมากขึ้น
พร้อมทั้งสร้างชุดทดสอบสำหรับวัดผลโมเดลเฉพาะแต่ละด้าน (Benchmark) เช่น บอตการแพทย์ต้องเก่งระดับไหนถึงจะได้มาตรฐานตามเกณฑ์ของสำนักงานคณะกรรมการอาหารและยา (อย.) และตั้งเป้าขยายผลไปที่การเทรนบุคลากรและจัดกิจกรรม Hackathon เพื่อกระตุ้นให้เกิดการนำโมเดลไปใช้จริง
“การพัฒนาโมเดลเฟส 2 จะเริ่มปลายเดือน พ.ค.นี้เป็นต้นไป ตามเงื่อนไขการได้รับอนุมัติงบประมาณจะเป็นแบบปีต่อปี เบื้องต้นวางกรอบงบประมาณไว้ที่ 100 ล้านบาท แต่ต้องรอดูตัวเลขจริง ๆ ที่ใช้ได้จะเป็นเท่าไร เงินที่ใช้จะมาจากกองทุนดีอีร่วมกับแหล่งเงินอื่น ๆ เพิ่มเติม”
เมื่อถามถึงภารกิจอื่น ๆ ในปีนี้ “ธีรณี” บอกว่า เป็นการเชื่อมโยงข้อมูลผ่านระบบ “DII” (Data Integration & Intelligence) โดย BDI ทำหน้าที่เป็นแกนกลางในการเชื่อมโยงข้อมูลระหว่างหน่วยงานภาครัฐ สร้าง “ท่อ” เชื่อมข้อมูลของหน่วยงานต่าง ๆ เข้าด้วยกัน ทำให้สามารถดึงข้อมูลมาใช้ได้ทันทีโดยไม่ต้องนำส่งไฟล์ ตอบโจทย์การใช้งานในกรณีฉุกเฉิน
ขณะเดียวกันยังเป็นการวางรากฐานเกี่ยวกับการจัดระเบียบข้อมูลในประเทศ โดยเฉพาะการสนับสนุนนโยบายระดับชาติ และในอนาคตจะมีการเชื่อมโยงชุดข้อมูลสำคัญตามมาตรฐานสากล เช่น OECD เพื่อนำมาใช้ในการวางแผนและกำหนดนโยบายของประเทศในเซ็กเตอร์ต่าง ๆ
“BDI ได้รับอำนาจตามระเบียบสำนักนายกรัฐมนตรีให้จัดการเรื่องนี้โดยเฉพาะ เป็นการปูทางสู่การพัฒนา National Data Bank หรือแพลตฟอร์มกลางที่ทำให้การเชื่อมโยงข้อมูลระหว่างภาครัฐมีประสิทธิภาพมากขึ้น”
ผู้อำนวยการ BDI ทิ้งท้ายด้วยว่า เป้าหมายการพัฒนาโมเดล ThaiLLM ไม่ใช่การพัฒนาโมเดลแข่งกับต่างชาติ แต่เป็นการวางหลักประกันที่ภาครัฐทำไว้เพื่อซัพพอร์ตประชาชน ซึ่งในระยะ 2-3 ปีข้างหน้าสิ่งนี้ควรเป็นโครงสร้างพื้นฐานของประเทศ ที่ใคร ๆ ก็มาใช้ต่อยอดได้ โดยภาครัฐทำหน้าที่เป็นผู้ดูแลเท่านั้น
อ่านข่าวต้นฉบับ: เดินหน้า ‘ThaiLLM’ เฟส 2 รองรับภาษาถิ่น-ต่อยอดใช้งานเฉพาะทาง
