
ภาพที่ 1 : Large Language Model ที่มา: https://miro.medium.com/v2/resize:fit:1080/1*bytrK3M-k2q94JzSSpdl0Q.jpeg
เมื่อพูดถึงคำว่า Transformer หลายๆคนอาจจะนึกถึงหุ่นยนต์แปลงร่างจากภาพยนตร์ยอดฮิตที่สามารถเปลี่ยนรูปร่างเป็นรถยนต์หรือยานพาหนะต่างๆ แต่คำว่า Transformer ในวงการ AI นั้น กลับมีความหมายที่แตกต่างออกไปอย่างสิ้นเชิงโดยเปรียบเสมือนพื้นฐานของโมเดลภาษาในปัจจุบัน เช่น หากเปรียบเทียบ Large Language Models (LLMs) เช่น GPT หรือ Gemini ว่าเป็นบ้านที่สร้างเสร็จแล้วพร้อมใช้งาน สิ่งที่เรียกว่า Transformer นั้นก็เปรียบเสมือนแบบแปลนของตัวบ้าน ที่ทำหน้าที่เป็นพื้นฐานในการสร้างโมเดล AI ที่สามารถเข้าใจและสื่อสารภาษามนุษย์ได้
Transformer นั้นถูกออกแบบมาเพื่อช่วยให้คอมพิวเตอร์สามารถเข้าใจและประมวลผลข้อมูลในรูปแบบของภาษาของมนุษย์ได้อย่างมีประสิทธิภาพ เช่น การประยุกต์ใช้ในด้าน NLP (Natural Language Processing) อย่างระบบแนะนำภาพยนต์ หรือรีวิวภาพยนต์ ซึ่งมีความซับซ้อนเนื่องจากภาษาเป็นสิ่งที่มนุษย์ใช้สื่อสารและมีความละเอียดอ่อนด้านความหมาย รวมถึงต้องเข้าใจความเชื่อมโยงของคำในบริบทต่างๆ เช่นเดียวกับในโมเดลภาษาขนาดใหญ่ที่ได้รับความนิยมในปัจจุบันอย่าง GPT (Generative Pre-Trained Transformer) ที่มุ่งเน้นการสร้างภาษาที่คล้ายกับการเขียนของมนุษย์ และ BERT (Bidirectional Encoder Representations from Transformers) ที่ออกแบบมาเพื่อเข้าใจความหมายของข้อความจากทุกรูปแบบ โครงสร้างของ Transformer นี้เองที่ทำให้โมเดลภาษาขนาดใหญ่สามารถสร้างข้อความ ตอบคำถาม หรือแม้แต่สรุปเนื้อหาได้อย่างมีประสิทธิภาพ ซึ่งทั้งหมดนี้อาศัย Transformer เป็นพื้นฐานหลักที่ช่วยให้โมเดลมีความแม่นยำและสามารถการทำความเข้าใจถึงบริบทภาษาของมนุษย์ได้มากขึ้น

ภาพที่ 2 : Large Language Model ต่าง ๆ ในปัจจุบัน ที่มา: https://blog.monsterapi.ai/blogs/content/images/2024/03/Screenshot-2024-03-06-172813.png
Transformer คืออะไร?
Transformer เป็นสถาปัตยกรรมการเรียนรู้เชิงลึก หรือ Deep Learning ที่ถูกเสนอขึ้นมาในงานวิจัยชื่อ “Attention is All You Need” ในปี 2017 จากทีมงานของ Google Research โดยมีจุดเด่นตรงที่ใช้เทคนิค Attention Mechanism ในการจัดการและประมวลผลข้อมูลต่าง ๆ โดยไม่จำเป็นต้องเรียงลำดับข้อมูลแบบต่อเนื่องเหมือนกับโมเดลเดิมๆอย่าง Recurrent Neural Networks (RNNs) หรือ Long Short-Term Memory (LSTM)

ภาพที่ 3 : สถาปัตยากรรมของ transformer ที่มา: https://miro.medium.com/v2/resize:fit:1100/format:webp/1*GAQrbFIV-G5cT3-OchMEHg.png
เมื่อพูดถึงการทำงานของ Transformer หัวใจหลักก็คือเทคนิค Attention mechanism ดังภาพที่ 4 ที่จะช่วยให้โมเดลสามารถให้ความสำคัญกับคำต่าง ๆ ในประโยค ทำให้สามารถเข้าใจความเชื่อมโยงและความหมายของคำได้ โดยการทำงานของเทคนิคนี้คือการกำหนดน้ำหนัก (weight) ให้กับแต่ละคำในประโยคผ่านการคำนวณค่าต่างๆ อย่าง Query (Q), Key (K) และ Value (V) ซึ่งใช้ในการประเมินว่าคำไหนในประโยคควรได้รับความสำคัญมากที่สุดในการทำงานเฉพาะนั้น ตัวอย่างเช่น “หนังเรื่องนี้สนุกมาก แต่ยังแสดงไม่ค่อยดี” โดยคำว่า “สนุกมาก” กับ “ไม่ค่อยดี” จะบ่งบอกและทำให้โมเดลเข้าใจถึงคำเชิงบวก (Positive sentiment) และเชิงลบ (Negative sentiment) ของประโยค (ดังภาพที่ 4) ทำให้ Transformer สามารถเข้าใจกับความสัมพันธ์ของคำแต่ละคำที่อยู่ไกลกันในประโยคได้ ซึ่งต่างจากโมเดลแบบเดิม ๆ ที่ต้องประมวลผลข้อมูลเรียงตามลำดับของคำต่าง ๆ และด้วยเทคนิคนี้ทำให้โมเดลสามารถทำงานกับข้อมูลจำนวนมหาศาลและข้อมูลที่มีความซับซ้อนได้ดีมากขึ้นกว่าเมื่อก่อนนั้นเอง

ภาพที่ 4: การทำงานของ Attention mechanism ที่มา: https://techovedas.com/wp-content/uploads/2024/03/GBopIFaacAA__Ds.webp
โมเดลภาษาขนาดใหญ่ (LLMs) เกี่ยวกับ Transformer ยังไง?
Transformer เป็นพื้นฐานของโมเดลภาษาขนาดใหญ่ (LLM) ที่เราเห็นกันในปัจจุบัน เช่น GPT, Gemini, BERT โมเดลเหล่านี้ได้รับการ Train บนข้อมูลจำนวนมหาศาลอย่างเช่น หนังสือนิยายต่าง ๆ โดยมีการใช้งานเทคนิคมากมาย อย่างเช่น NLP ในการประมวลผลข้อมูลต่างๆที่เป็นข้อความ เพื่อให้สามารถเรียนรู้จากข้อมูลได้อย่างมีประสิทธิภาพ ทั้งในด้านการเข้าใจและการสร้างภาษา ทำให้สามารถสร้างข้อความที่มีคุณภาพและการที่ LLM สามารถตอบคำถาม (Q&A) สร้างข้อความใหม่ (Text generation) หรือแม้แต่แปลภาษา (Translation) ได้นั้น ทำให้สามารถเข้าใจและสร้างภาษาได้อย่างคล่องแคล่วใกล้เคียงกับของมนุษย์มากขึ้น ก็เป็นผลมาจากการใช้โครงสร้างพื้นฐานของ Transformer

ภาพที่ 5 : การประยุกต์ใช้งานของ LLM ที่มา : https://cdn.botpenguin.com/assets/website/LLM_Use_Cases_1_d9ad8ae6b0.webp
การใช้งานของโมเดลภาษาขนาดใหญ่ (LLMs) นั้น มีความหลากหลายในการใช้งานต่าง ๆ (ภาพที่ 5) ไม่ว่าจะเป็น Chatbots ที่สามารถตอบโต้กับมนุษย์ได้ หรือ การสรุปเนื้อหาและช่วยในการแปลภาษา นอกจากนี้ หรือการประยุกต์ใช้ต่าง ๆ เช่น ใช้ในระบบค้นหาข้อมูล (Information Retrieval), Coding, Sentiment Analysis เช่น รีวิวภาพยนต์หรือแม้แต่ระบบ Fake news detection เรียกได้ว่า LLM ที่ขับเคลื่อนโดยโครงสร้างของ Transformer และ attention mechanism โดยรวมแล้ว LLM ที่ขับเคลื่อนโดยโครงสร้างของ Transformer เป็นเครื่องมือที่มีความสำคัญและมีประโยชน์ในหลากหลายด้านสามารถตอบสนองความต้องการที่หลากหลายของผู้คนได้ในปัจจุบัน
ข้อดีของ Transformer
ข้อเสียของ Transformer
สรุป
คำว่า Transformer อาจจะไม่ใช่หุ่นยนต์แปลงร่างอย่างที่หลายคนคิด แต่เป็นสถาปัตยกรรมที่ทรงพลังในโลกของปัญญาประดิษฐ์ (AI) และเป็นรากฐานของโมเดลภาษาขนาดใหญ่ (LLMs) เช่น GPT, BERT และ ChatGPT โดยมีกลไกที่เรียกว่า Attention Mechanism ที่สามารถให้กับคำสำคัญในประโยคนั้น ๆ ได้และทำให้สามารถจับความสัมพันธ์ระหว่างคำได้แม่นยำและมีประสิทธิภาพในการประมวลผลข้อมูลได้ดีขึ้น นอกจากนี้ยังมีข้อดีและข้อด้อยต่าง ๆ ในการปรับใช้กับงานต่างๆ ความสามารถนี้ทำให้ LLMs สามารถใช้ได้หลากหลายด้าน เช่น Chatbot การแปลภาษา เป็นผู้ช่วยหรือ Virtual assistant ที่ใช้ในชีวิตประจำวัน แต่อย่างไรก็ตามผลลัพธ์ที่ได้จาก LLM เช่น ChatGPT Gemini หรือประเภท AI Chatbot นั้นเป็นการทำนายคำต่อไป (หรือ Next word prediction) ในประโยค เท่านั้น ทำให้อาจเกิดข้อมูลผิด ที่ดูเหมือนจะถูกหรือที่เรียกว่า Hallucination ของ LLMs นั้นเอง และสาเหตุนี้เองทำให้ไม่สามารถเชื่อผลที่ออกมาได้ทั้งหมด แต่ก็ปฏิเสธไม่ได้ว่า Transformer นั้นเป็นเทคโนโลยีสำคัญในการพัฒนาระบบ AI ที่ตอบโจทย์งานต่าง ๆ ได้ในปัจจุบัน
วิรุณห์ เซียวศิริถาวร
ฝ่ายส่งเสริมแพลตฟอร์มและบริการดิจิทัล
สำนักงานส่งเสริมเศรษฐกิจดิจิทัล
อ้างอิง