ถอดรหัส Transformer: ขุมพลังเบื้องหลัง LLM ที่พลิกวงการ AI

Large Language Model

ภาพที่ 1 : Large Language Model ที่มา: https://miro.medium.com/v2/resize:fit:1080/1*bytrK3M-k2q94JzSSpdl0Q.jpeg

เมื่อพูดถึงคำว่า Transformer หลายๆคนอาจจะนึกถึงหุ่นยนต์แปลงร่างจากภาพยนตร์ยอดฮิตที่สามารถเปลี่ยนรูปร่างเป็นรถยนต์หรือยานพาหนะต่างๆ แต่คำว่า Transformer ในวงการ AI นั้น กลับมีความหมายที่แตกต่างออกไปอย่างสิ้นเชิงโดยเปรียบเสมือนพื้นฐานของโมเดลภาษาในปัจจุบัน เช่น หากเปรียบเทียบ Large Language Models (LLMs) เช่น GPT หรือ Gemini ว่าเป็นบ้านที่สร้างเสร็จแล้วพร้อมใช้งาน สิ่งที่เรียกว่า Transformer นั้นก็เปรียบเสมือนแบบแปลนของตัวบ้าน ที่ทำหน้าที่เป็นพื้นฐานในการสร้างโมเดล AI ที่สามารถเข้าใจและสื่อสารภาษามนุษย์ได้

Transformer นั้นถูกออกแบบมาเพื่อช่วยให้คอมพิวเตอร์สามารถเข้าใจและประมวลผลข้อมูลในรูปแบบของภาษาของมนุษย์ได้อย่างมีประสิทธิภาพ เช่น การประยุกต์ใช้ในด้าน NLP (Natural Language Processing) อย่างระบบแนะนำภาพยนต์ หรือรีวิวภาพยนต์ ซึ่งมีความซับซ้อนเนื่องจากภาษาเป็นสิ่งที่มนุษย์ใช้สื่อสารและมีความละเอียดอ่อนด้านความหมาย รวมถึงต้องเข้าใจความเชื่อมโยงของคำในบริบทต่างๆ เช่นเดียวกับในโมเดลภาษาขนาดใหญ่ที่ได้รับความนิยมในปัจจุบันอย่าง GPT (Generative Pre-Trained Transformer) ที่มุ่งเน้นการสร้างภาษาที่คล้ายกับการเขียนของมนุษย์ และ BERT (Bidirectional Encoder Representations from Transformers) ที่ออกแบบมาเพื่อเข้าใจความหมายของข้อความจากทุกรูปแบบ โครงสร้างของ Transformer นี้เองที่ทำให้โมเดลภาษาขนาดใหญ่สามารถสร้างข้อความ ตอบคำถาม หรือแม้แต่สรุปเนื้อหาได้อย่างมีประสิทธิภาพ ซึ่งทั้งหมดนี้อาศัย Transformer เป็นพื้นฐานหลักที่ช่วยให้โมเดลมีความแม่นยำและสามารถการทำความเข้าใจถึงบริบทภาษาของมนุษย์ได้มากขึ้น

Large Language Model ต่าง ๆ ในปัจจุบัน

ภาพที่ 2 : Large Language Model ต่าง ๆ ในปัจจุบัน ที่มา: https://blog.monsterapi.ai/blogs/content/images/2024/03/Screenshot-2024-03-06-172813.png

Transformer คืออะไร?

Transformer เป็นสถาปัตยกรรมการเรียนรู้เชิงลึก หรือ Deep Learning ที่ถูกเสนอขึ้นมาในงานวิจัยชื่อ “Attention is All You Need” ในปี 2017 จากทีมงานของ Google Research โดยมีจุดเด่นตรงที่ใช้เทคนิค Attention Mechanism ในการจัดการและประมวลผลข้อมูลต่าง ๆ โดยไม่จำเป็นต้องเรียงลำดับข้อมูลแบบต่อเนื่องเหมือนกับโมเดลเดิมๆอย่าง Recurrent Neural Networks (RNNs) หรือ Long Short-Term Memory (LSTM)

สถาปัตยากรรมของ transformer

ภาพที่ 3 : สถาปัตยากรรมของ transformer ที่มา: https://miro.medium.com/v2/resize:fit:1100/format:webp/1*GAQrbFIV-G5cT3-OchMEHg.png

เมื่อพูดถึงการทำงานของ Transformer หัวใจหลักก็คือเทคนิค Attention mechanism ดังภาพที่ 4 ที่จะช่วยให้โมเดลสามารถให้ความสำคัญกับคำต่าง ๆ ในประโยค ทำให้สามารถเข้าใจความเชื่อมโยงและความหมายของคำได้ โดยการทำงานของเทคนิคนี้คือการกำหนดน้ำหนัก (weight) ให้กับแต่ละคำในประโยคผ่านการคำนวณค่าต่างๆ อย่าง Query (Q), Key (K) และ Value (V) ซึ่งใช้ในการประเมินว่าคำไหนในประโยคควรได้รับความสำคัญมากที่สุดในการทำงานเฉพาะนั้น ตัวอย่างเช่น “หนังเรื่องนี้สนุกมาก แต่ยังแสดงไม่ค่อยดี” โดยคำว่า “สนุกมาก” กับ “ไม่ค่อยดี” จะบ่งบอกและทำให้โมเดลเข้าใจถึงคำเชิงบวก (Positive sentiment) และเชิงลบ (Negative sentiment) ของประโยค (ดังภาพที่ 4) ทำให้ Transformer สามารถเข้าใจกับความสัมพันธ์ของคำแต่ละคำที่อยู่ไกลกันในประโยคได้ ซึ่งต่างจากโมเดลแบบเดิม ๆ ที่ต้องประมวลผลข้อมูลเรียงตามลำดับของคำต่าง ๆ และด้วยเทคนิคนี้ทำให้โมเดลสามารถทำงานกับข้อมูลจำนวนมหาศาลและข้อมูลที่มีความซับซ้อนได้ดีมากขึ้นกว่าเมื่อก่อนนั้นเอง

การทำงานของ Attention mechanism

ภาพที่ 4: การทำงานของ Attention mechanism ที่มา: https://techovedas.com/wp-content/uploads/2024/03/GBopIFaacAA__Ds.webp

โมเดลภาษาขนาดใหญ่ (LLMs) เกี่ยวกับ Transformer ยังไง?

Transformer เป็นพื้นฐานของโมเดลภาษาขนาดใหญ่ (LLM) ที่เราเห็นกันในปัจจุบัน เช่น GPT, Gemini, BERT โมเดลเหล่านี้ได้รับการ Train บนข้อมูลจำนวนมหาศาลอย่างเช่น หนังสือนิยายต่าง ๆ โดยมีการใช้งานเทคนิคมากมาย อย่างเช่น NLP ในการประมวลผลข้อมูลต่างๆที่เป็นข้อความ เพื่อให้สามารถเรียนรู้จากข้อมูลได้อย่างมีประสิทธิภาพ ทั้งในด้านการเข้าใจและการสร้างภาษา ทำให้สามารถสร้างข้อความที่มีคุณภาพและการที่ LLM สามารถตอบคำถาม (Q&A) สร้างข้อความใหม่ (Text generation) หรือแม้แต่แปลภาษา (Translation) ได้นั้น ทำให้สามารถเข้าใจและสร้างภาษาได้อย่างคล่องแคล่วใกล้เคียงกับของมนุษย์มากขึ้น ก็เป็นผลมาจากการใช้โครงสร้างพื้นฐานของ Transformer

การประยุกต์ใช้งานของ LLM

ภาพที่ 5 : การประยุกต์ใช้งานของ LLM ที่มา : https://cdn.botpenguin.com/assets/website/LLM_Use_Cases_1_d9ad8ae6b0.webp

การใช้งานของโมเดลภาษาขนาดใหญ่ (LLMs) นั้น มีความหลากหลายในการใช้งานต่าง ๆ (ภาพที่ 5) ไม่ว่าจะเป็น Chatbots ที่สามารถตอบโต้กับมนุษย์ได้ หรือ การสรุปเนื้อหาและช่วยในการแปลภาษา นอกจากนี้ หรือการประยุกต์ใช้ต่าง ๆ เช่น ใช้ในระบบค้นหาข้อมูล (Information Retrieval), Coding, Sentiment Analysis เช่น รีวิวภาพยนต์หรือแม้แต่ระบบ Fake news detection เรียกได้ว่า LLM ที่ขับเคลื่อนโดยโครงสร้างของ Transformer และ attention mechanism โดยรวมแล้ว LLM ที่ขับเคลื่อนโดยโครงสร้างของ Transformer เป็นเครื่องมือที่มีความสำคัญและมีประโยชน์ในหลากหลายด้านสามารถตอบสนองความต้องการที่หลากหลายของผู้คนได้ในปัจจุบัน

ข้อดีของ Transformer

ทำงานได้เร็วและดีกับข้อมูลปริมาณมาก เช่น ประมวลผลได้เร็วกับประโยคที่ยาวและมีความซับซ้อนได้ดี
เข้าใจความหมายคำในประโยคได้ถูกต้อง เช่น การแปลภาษา สรุปข้อความต่างๆ
ไม่จำเป็นต้องประมวลผลทีละคำ Transformer สามารถประมวลผลทั้งประโยคพร้อมๆกันได้

ข้อเสียของ Transformer

ต้องใช้ทรัพยากรในการประมวลผลสูง ทำให้มีค่าใช้จ่ายสูง เช่น ค่าไฟ หรือ เวลาที่ใช้ในการ Train
ความซับซ้อนของโมเดลทำให้ต้องใช้เวลาในการพัฒนานาน การที่จะได้โมเดลที่มีความแม่นยำนั้นใช้เวลาในการปรับหรือ Fine tune เป็นเวลานานเพื่อให้มีประสิทธิภาพที่ดีขึ้น เนื่องจากระหว่างการ Train อาจะมีปัญหาเช่น Underfitting หรือOverfitting ของโมเดลที่เกิดจากการแบ่งข้อมูลที่ใช้ในการ Train ไม่ดีพอ
ต้องการข้อมูลในปริมาณมากเพื่อจะทำงานได้ดี ถ้าข้อมูลน้อยจะได้ผลลัพธ์ที่ไม่ดีเท่าที่ควร

สรุป

คำว่า Transformer อาจจะไม่ใช่หุ่นยนต์แปลงร่างอย่างที่หลายคนคิด แต่เป็นสถาปัตยกรรมที่ทรงพลังในโลกของปัญญาประดิษฐ์ (AI) และเป็นรากฐานของโมเดลภาษาขนาดใหญ่ (LLMs) เช่น GPT, BERT และ ChatGPT โดยมีกลไกที่เรียกว่า Attention Mechanism ที่สามารถให้กับคำสำคัญในประโยคนั้น ๆ ได้และทำให้สามารถจับความสัมพันธ์ระหว่างคำได้แม่นยำและมีประสิทธิภาพในการประมวลผลข้อมูลได้ดีขึ้น นอกจากนี้ยังมีข้อดีและข้อด้อยต่าง ๆ ในการปรับใช้กับงานต่างๆ ความสามารถนี้ทำให้ LLMs สามารถใช้ได้หลากหลายด้าน เช่น Chatbot การแปลภาษา เป็นผู้ช่วยหรือ Virtual assistant ที่ใช้ในชีวิตประจำวัน แต่อย่างไรก็ตามผลลัพธ์ที่ได้จาก LLM เช่น ChatGPT Gemini หรือประเภท AI Chatbot นั้นเป็นการทำนายคำต่อไป (หรือ Next word prediction) ในประโยค เท่านั้น ทำให้อาจเกิดข้อมูลผิด ที่ดูเหมือนจะถูกหรือที่เรียกว่า Hallucination ของ LLMs นั้นเอง และสาเหตุนี้เองทำให้ไม่สามารถเชื่อผลที่ออกมาได้ทั้งหมด แต่ก็ปฏิเสธไม่ได้ว่า Transformer นั้นเป็นเทคโนโลยีสำคัญในการพัฒนาระบบ AI ที่ตอบโจทย์งานต่าง ๆ ได้ในปัจจุบัน

วิรุณห์ เซียวศิริถาวร

ฝ่ายส่งเสริมแพลตฟอร์มและบริการดิจิทัล

สำนักงานส่งเสริมเศรษฐกิจดิจิทัล

อ้างอิง

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. and Polosukhin, I., (2017). "Attention is All You Need". Advances in Neural Information Processing Systems (NeurIPS). Available at: https://arxiv.org/abs/1706.03762
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Available at: https://arxiv.org/abs/1810.04805
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., et al. (2020). "Language Models are Few-Shot Learners". Advances in Neural Information Processing Systems (NeurIPS). Available at: https://arxiv.org/abs/2005.14165
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). "Language Models are Unsupervised Multitask Learners". OpenAI GPT-2 Technical Report. Available at: https://cdn.openai.com/
Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., et al. (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Available at: https://aclanthology.org/2020.emnlp-demos.6/

ถอดรหัส Transformer: ขุมพลังเบื้องหลัง LLM ที่พลิกวงการ AI

SUSCRIBETE