บริการ
TH
EN
TH
CN

NLP เมื่อภาษาติดอาวุธ

ที่มา: https://canopylab.com/the-enormous-potential-of-natural-language-processing-nlp-in-learning/

มนุษย์ กำลังถูกท้าทายและผลักดันด้วยความก้าวหน้าของเทคโนโลยี รวมไปถึง “ภาษา” หนึ่งในนวัตกรรมของมนุษย์ที่เกิดขึ้นมานานนับพันปีและมีวิวัฒนาการตามยุคสมัย ก็ไม่สามารถหนีพ้นและต้องวิ่งตามให้ทันเทคโนโลยีเช่นเดียวกัน ทักษะทาง “ภาษา” ที่ซับซ้อนและเคยเป็นความสามารถเฉพาะตัวในการเรียนรู้ของมนุษย์นั้น กำลังถูกเทคโนโลยีเข้ามาแทนที่ ในขณะเดียวกันเทคโนโลยีก็กลายเป็นตัวช่วยสำคัญในการเชื่อมต่อการสื่อสารของคนทั้งโลก ตัวอย่างเช่น การแปลภาษาหนึ่งไปสู่อีกภาษาหนึ่ง จากในอดีตที่ต้องใช้ล่าม นักแปล หรือผู้รู้หลายภาษาเท่านั้น ปัจจุบัน ทุกคนสามารถพิมพ์ข้อมูลภาษาหนึ่งลงไปในแอปพลิเคชันหรือโปรแกรมแปลภาษา อย่าง Google Translate ก็จะสามารถแปลข้อมูลนั้นเป็นภาษาอื่น ๆ ได้อีกมากกว่า 100 ภาษาได้อย่างรวดเร็วและไม่เสียค่าใช้จ่ายอีกด้วย หรือแม้แต่การตรวจการสะกดคำอัตโนมัติในโปรแกรม Microsoft Word ก็กลายเป็นผู้ช่วยของมนุษย์อย่างไม่รู้ตัว ดังนั้นแล้ว อาวุธลับเบื้องหลังความสามารถทางภาษาของเทคโนโลยีเหล่านี้เกิดขึ้นจากเครื่องมือใดกัน

เมื่อราว 70 ปีที่แล้ว หรือหลังสงครามโลกครั้งที่ 2 แนวคิดวิทยาการด้านการประมวลผลภาษาธรรมชาติ (Natural Language Processing หรือ NLP) ได้มีการริเริ่มขึ้น ด้วยความต้องการที่จะสร้างเครื่องมือแปลภาษาจากภาษาหนึ่งไปอีกภาษาหนึ่ง ภาษาธรรมชาติในที่นี้หมายถึงภาษาที่ใชสื่อสารของมนุษย์ อาทิ ภาษาอังกฤษ ภาษาจีน ซึ่งต่างจากภาษาที่คอมพิวเตอร์ใชในการทำงานที่เรียกว่า Machine Code หรือ Machine Language ที่อยู่ในรูปรหัส 0 และ 1 นับล้าน ๆ รายการ ซึ่งเป็นภาษาที่มนุษย์สวนมากไม่สามารถเข้าใจได้ โดยเทคโนโลยี NLP (ภาพประกอบ 1)

เป็นเครื่องมือแขนงหนึ่งภายใต้เทคโนโลยีปัญญาประดิษฐ์หรือ Artificial Intelligence (AI) ที่ช่วยให้คอมพิวเตอร์สามารถเข้าใจ ตีความและใช้งานภาษาที่มนุษย์ใช้สื่อสารได้ พร้อมเข้าใจเจตนาและความรู้สึกของผู้พูด หรือผู้เขียนได้เช่นกัน เทคโนโลยี NLP นี้ มีรากฐานจากวิทยาการหลากหลายสาขา โดยเฉพาะด้านวิทยาการคอมพิวเตอร์ (Computer Science) และภาษาศาสตร์เชิงคำนวณ (Computational Linguistics) เพื่ออุดช่องว่างทางการสื่อสารระหว่างมนุษย์และระบบคอมพิวเตอร์ให้ได้มากที่สุด

ภาพประกอบ 1: แนวคิดวิทยาการด้านการประมวลผลภาษาธรรมชาติ ที่มา: https://algorithmxlab.com/blog/natural-language-processing/

เนื่องจากภาษาของมนุษย์เต็มไปด้วยความซับซ้อน หลากหลาย และกำกวม ทั้งภาษาพูดและภาษาเขียน อีกทั้งยังมีภาษาถิ่น มีชุดไวยากรณ์ โครงสร้างทางภาษา รวมทั้งศัพท์แสลง สำนวน และการย่อคำ จึงเป็นเรื่องยากอย่างยิ่งที่จะเขียนซอฟต์แวร์ที่สามารถแปลความจากข้อความ หรือเสียงที่ต้องการจะสื่อให้ได้อย่างแม่นยำ เพราะในเมื่อมนุษย์ยังต้องใช้เวลาในการเรียนรู้การใช้ภาษาอย่างถูกต้อง โปรแกรมเมอร์เองก็ต้องการเวลาในการสอนให้คอมพิวเตอร์เข้าใจภาษาธรรมชาติที่ดิ้นได้เหล่านี้อย่างถูกต้องตั้งแต่เริ่มต้นด้วยเช่นกัน เทคโนโลยีนี้จึงต้องการการสนับสนุนและการพัฒนาไปอีกมาก เบื้องต้น การทำงานของ NLP จะช่วยย่อยข้อความ และเสียงของมนุษย์เพื่อช่วยให้คอมพิวเตอร์เข้าใจถึงสิ่งที่นำเข้ามา โดยความสามารถหลักของ NLP มีดังนี้

  • Speech recognition หรือที่เรียกว่า Speech-to-Text มีหน้าที่ในการแปลงข้อมูลเสียงให้เป็นข้อมูลที่อยู่ในรูปแบบของข้อความ Speech Recognition
  • Part of Speech Tagging เป็นกระบวนการในการระบุชนิดของคำแต่ละคำ หรือส่วนของข้อความตามการใช้งาน และบริบท เช่น การระบุว่าคำว่า “ทำ” เป็นคำกริยาในประโยค “ฉันทำอาหาร”
  • Word Sense Disambiguation เป็นการเลือกความหมายของคำที่ประกอบไปด้วยความหมายที่หลากหลายโดยการใช้กระบวนการการวิเคราะห์ในเชิงความหมาย (Semantic analysis) ที่จะตัดสินได้ว่าคำที่เหมาะสมกับบริบทนั้น ๆ มากที่สุดควรจะเป็นคำใด
  • Named Entity Recognition หรือ NEM เป็นกระบวนการในการหาและระบุตำแหน่งชื่อเฉพาะของสิ่งต่าง ๆ ที่อยู่ในเอกสาร เช่น ชื่อคน ชื่อองค์กร สถานที่ ตัวเลข จำนวนเงิน วันเวลา ตัวอย่างเช่น ระบุว่า “โรงแรม” เป็นสถานที่ หรือ “สมศักดิ์” เป็นชื่อคน เป็นต้น
  • Sentiment Analysis เป็นการพยายามตีความและเข้าใจความคิดของแต่ละบุคคล ไม่ว่าจะเป็นทัศนคติ ความรู้สึก การเหน็บแนม ความสับสัน หรือความสงสัย จากข้อความต่าง

ภาพประกอบ 2: การทำงานของ NLP ที่มา: https://beyondvoice.ai/voice-transcription/

หน้าที่ของ NLP ที่กล่าวมาข้างต้น ลวนแต่มีเป้าหมายเดียวกันคือการแปลงข้อมูลดิบที่เป็นภาษาของมนุษย์ใหเป็นข้อมูลที่อุปกรณ์สามารถนำไปใช้งานต่อได้ ไม่ว่าจะผานอัลกอริทึมและกระบวนการทางภาษาต่าง ๆ โดยเทคโนโลยี NLP นั้น เป็นเบื้องหลังและอาวุธที่ซ่อนอยู่ภายใต้ความอัจฉริยะคอมพิวเตอร์ ซึ่งคนทั่วไปอาจจะไม่เคยทราบและรู้จักมาก่อน โดยเฉพาะอย่างยิ่งในโลกธุรกิจ มีการใช้เทคโนโลยีนี้อย่างแพร่หลาย เห็นได้จากตลาด NLP กำลังเติบโตอย่างมาก ตามรายงานของ Fortune Business Insights นั้น คาดว่า มูลค่าตลาดเทคโนโลยี NLP ทั่วโลกจะเติบโตจาก 20.98 พันล้านเหรียญสหรัฐ ในปี 2564 เป็น 127.26 พันล้านเหรียญสหรัฐ ในปี 2571 เนื่องจากมีการใช้อุปกรณ์อัจฉริยะ (Smart Devices) ที่เพิ่มมากขึ้น รวมทั้งการใช้เทคโนโลยีดังกล่าวในภาคสาธารณสุขเพิ่มสูงขึ้นเพราะจำนวนข้อมูลของผู้ป่วยขยายขนาดขึ้นตั้งแต่ช่วงการแพร่ระบาดของโรคโควิด-19 เป็นต้นมา โดยตัวอย่างผลงานของเทคโนโลยีนี้ที่เป็นที่รู้จัก นอกจากจะช่วยแปลภาษาแล้ว ยังมีบทบาทดังต่อไปนี้

  • การตรวจจับสแปม: NLP ช่วยจัดแบ่งประเภทของข้อความตามวัตถุประสงค์ หรือ text classification เพื่อที่จะตรวจหาคำในอีเมลที่มักระบุว่าเป็นสแปม หรือการหลอกหลวง เช่น การใช้วงเงินเกินกำหนด การใช้ไวยากรณ์ที่ไม่ถูกต้อง การใช้ภาษาข่มขู่ การสะกดชื่อบริษัทผิด เป็นต้น
  • ผู้ช่วยเสมือน และแชทบอท (Chatbot & Virtual Assistant): ผู้ช่วยเสมือน เช่น Siri ของ Apple และ Alexa ของ Amazon ใช้การจำเสียงเพื่อจำรูปแบบเสียงในการออกคำสั่งเสียง และใช้ Natural Language Generation เพื่อตอบสนองด้วยข้อความที่เหมาะสม ส่วนแชทบอทใช้วิธีแบบเดียวกันในการตอบสนองกับข้อความที่ถูกพิมพ์เข้ามา โดยเครื่องมือนี้ช่วยยกระดับกระบวนการทางธุรกิจ และช่วยประหยัดค่าใช้จ่ายในการจ้างงานบุคลากรในการบริการลูกค้า และพาร์ทเนอร์ทางธุรกิจได้
  • การวิเคราะห์ความรู้สึกในโซเชียลมีเดีย: การใช้ NLP ผ่าน Sentiment Analysis จะช่วยวิเคราะห์ข้อมูลลูกค้าจากโซเชียลมีเดียได้ จะทำให้องค์กรสามารถเข้าใจถึงความต้องการของลูกค้าได้ดียิ่งขึ้น สามารถที่จะเปลี่ยนวิธีการสร้างปฏิสัมพันธ์กับลูกค้า รวมทั้งทำให้สามารถคาดการณ์ความต้องการ และยกระดับผลประกอบการของบริษัทในภาพรวมได้ด้วยเช่นกัน

นอกจากตัวอย่างข้างต้นแล้ว เทคโนโลยี NLP ยังมีประโยชน์อีกมากมาย ทั้งช่วยค้นหา และจับคู่ข้อมูลในเอกสาร (Document Search and Match) การวิเคราะห์เอกสารแบบอัจฉริยะ (Intelligent Document Analysis) หรือแม้แต่การป้องกันภัยคุกคามภายใน (Insider Threat Detection) ซึ่งเทคโนโลยีนี้มีการใช้กันอย่างแพร่หลายในระดับสากล และมีภาษาอังกฤษเป็นภาษาหลักที่ได้รับการพัฒนา ในส่วนของภาษาไทยเอง ก็มีหลายสถาบันและภาคส่วนกำลังผลักดัน เช่น สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence (AI) Research Institute) ที่อยู่ระหว่างการสร้างและพัฒนาชุดข้อมูลภาษา (Language Model) ด้วยข้อมูลภาษาไทยขนาดใหญ่ โดยเปิดให้ทุกคนสามารถเข้าถึงและใช้โมเดลดังกล่าวได้ผ่าน https://huggingface.co/airesearch นอกจากนี้ ยังมีการร่วมมือกันระหว่าง จุฬาลงกรณ์มหาวิทยาลัย ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) และธนาคารกสิกรไทย ผ่านโครงการ Thai NLP ที่มุ่งพัฒนาโปรแกรมที่ทำความเข้าใจความหมายของภาษาไทยในเชิงลึก เข้าใจอารมณ์และเจตนาของผู้ใช้งาน เพื่อให้หน่วยงานของรัฐหรือเอกชนต่าง ๆ นำไปประยุกต์ใช้ โดย Thai NLP ได้ช่วยในกระบวนการทำผลสำรวจความพึงพอใจของลูกค้า จากขั้นตอนเดิมที่ได้ผลตอบแบบสอบถาม 30,000 รายต่อเดือน NLP เพิ่มจำนวนเป็น 600,000 รายต่อเดือน และยังเพิ่มระดับความแม่นยำใน การเข้าใจลูกค้า จากความแม่นยำประมาณ 80% ซึ่งเท่ากับมาตรฐานของตลาดเมื่อก่อนใช้ NLP เพิ่มขึ้นเป็น 90-95% หลังจากนำมาใช้อีกด้วย

สุดท้ายแล้ว เทคโนโลยีดังกล่าวโดยเฉพาะชุดข้อมูลภาษาไทย ยังคงต้องการการพัฒนาอีกมาก เพื่อตอบสนองความต้องการจากทุกภาคส่วนในประเทศไทย โดยเฉพาะภาคธุรกิจ อย่างไรก็ตาม ประเทศไทยยังคงขาดบุคลากร ผู้เชี่ยวชาญ และแพลตฟอร์มกลางที่เอื้อต่อการร่วมกันพัฒนาเทคโนโลยีดังกล่าว ดังนั้น ทุกภาคส่วนควรร่วมมือกัน ทั้งเพิ่มจำนวนนักพัฒนา ผ่านการสร้างความตระหนักและการรับรู้ของประชาชน โดยเฉพาะเยาวชนคนรุ่นใหม่ให้รู้จักศาสตร์แขนงนี้มากขึ้น และร่วมมือกันระหว่างหน่วยงานภาครัฐและเอกชนผลักดันการพัฒนาเทคโนโลยีดังกล่าวให้แพร่หลาย เป็นของคนไทย ด้วยคนไทย และเพื่อคนไทย

ญาณภา ฉัตรกุล ณ อยุธยา

ฝ่ายนโยบายและยุทธศาสตร์

สำนักงานส่งเสริมเศรษฐกิจดิจิทัล

อ้างอิง