ที่มา: https://canopylab.com/the-enormous-potential-of-natural-language-processing-nlp-in-learning/
มนุษย์ กำลังถูกท้าทายและผลักดันด้วยความก้าวหน้าของเทคโนโลยี รวมไปถึง “ภาษา” หนึ่งในนวัตกรรมของมนุษย์ที่เกิดขึ้นมานานนับพันปีและมีวิวัฒนาการตามยุคสมัย ก็ไม่สามารถหนีพ้นและต้องวิ่งตามให้ทันเทคโนโลยีเช่นเดียวกัน ทักษะทาง “ภาษา” ที่ซับซ้อนและเคยเป็นความสามารถเฉพาะตัวในการเรียนรู้ของมนุษย์นั้น กำลังถูกเทคโนโลยีเข้ามาแทนที่ ในขณะเดียวกันเทคโนโลยีก็กลายเป็นตัวช่วยสำคัญในการเชื่อมต่อการสื่อสารของคนทั้งโลก ตัวอย่างเช่น การแปลภาษาหนึ่งไปสู่อีกภาษาหนึ่ง จากในอดีตที่ต้องใช้ล่าม นักแปล หรือผู้รู้หลายภาษาเท่านั้น ปัจจุบัน ทุกคนสามารถพิมพ์ข้อมูลภาษาหนึ่งลงไปในแอปพลิเคชันหรือโปรแกรมแปลภาษา อย่าง Google Translate ก็จะสามารถแปลข้อมูลนั้นเป็นภาษาอื่น ๆ ได้อีกมากกว่า 100 ภาษาได้อย่างรวดเร็วและไม่เสียค่าใช้จ่ายอีกด้วย หรือแม้แต่การตรวจการสะกดคำอัตโนมัติในโปรแกรม Microsoft Word ก็กลายเป็นผู้ช่วยของมนุษย์อย่างไม่รู้ตัว ดังนั้นแล้ว อาวุธลับเบื้องหลังความสามารถทางภาษาของเทคโนโลยีเหล่านี้เกิดขึ้นจากเครื่องมือใดกัน
เมื่อราว 70 ปีที่แล้ว หรือหลังสงครามโลกครั้งที่ 2 แนวคิดวิทยาการด้านการประมวลผลภาษาธรรมชาติ (Natural Language Processing หรือ NLP) ได้มีการริเริ่มขึ้น ด้วยความต้องการที่จะสร้างเครื่องมือแปลภาษาจากภาษาหนึ่งไปอีกภาษาหนึ่ง ภาษาธรรมชาติในที่นี้หมายถึงภาษาที่ใชสื่อสารของมนุษย์ อาทิ ภาษาอังกฤษ ภาษาจีน ซึ่งต่างจากภาษาที่คอมพิวเตอร์ใชในการทำงานที่เรียกว่า Machine Code หรือ Machine Language ที่อยู่ในรูปรหัส 0 และ 1 นับล้าน ๆ รายการ ซึ่งเป็นภาษาที่มนุษย์สวนมากไม่สามารถเข้าใจได้ โดยเทคโนโลยี NLP (ภาพประกอบ 1)
เป็นเครื่องมือแขนงหนึ่งภายใต้เทคโนโลยีปัญญาประดิษฐ์หรือ Artificial Intelligence (AI) ที่ช่วยให้คอมพิวเตอร์สามารถเข้าใจ ตีความและใช้งานภาษาที่มนุษย์ใช้สื่อสารได้ พร้อมเข้าใจเจตนาและความรู้สึกของผู้พูด หรือผู้เขียนได้เช่นกัน เทคโนโลยี NLP นี้ มีรากฐานจากวิทยาการหลากหลายสาขา โดยเฉพาะด้านวิทยาการคอมพิวเตอร์ (Computer Science) และภาษาศาสตร์เชิงคำนวณ (Computational Linguistics) เพื่ออุดช่องว่างทางการสื่อสารระหว่างมนุษย์และระบบคอมพิวเตอร์ให้ได้มากที่สุด
ภาพประกอบ 1: แนวคิดวิทยาการด้านการประมวลผลภาษาธรรมชาติ ที่มา: https://algorithmxlab.com/blog/natural-language-processing/
เนื่องจากภาษาของมนุษย์เต็มไปด้วยความซับซ้อน หลากหลาย และกำกวม ทั้งภาษาพูดและภาษาเขียน อีกทั้งยังมีภาษาถิ่น มีชุดไวยากรณ์ โครงสร้างทางภาษา รวมทั้งศัพท์แสลง สำนวน และการย่อคำ จึงเป็นเรื่องยากอย่างยิ่งที่จะเขียนซอฟต์แวร์ที่สามารถแปลความจากข้อความ หรือเสียงที่ต้องการจะสื่อให้ได้อย่างแม่นยำ เพราะในเมื่อมนุษย์ยังต้องใช้เวลาในการเรียนรู้การใช้ภาษาอย่างถูกต้อง โปรแกรมเมอร์เองก็ต้องการเวลาในการสอนให้คอมพิวเตอร์เข้าใจภาษาธรรมชาติที่ดิ้นได้เหล่านี้อย่างถูกต้องตั้งแต่เริ่มต้นด้วยเช่นกัน เทคโนโลยีนี้จึงต้องการการสนับสนุนและการพัฒนาไปอีกมาก เบื้องต้น การทำงานของ NLP จะช่วยย่อยข้อความ และเสียงของมนุษย์เพื่อช่วยให้คอมพิวเตอร์เข้าใจถึงสิ่งที่นำเข้ามา โดยความสามารถหลักของ NLP มีดังนี้
ภาพประกอบ 2: การทำงานของ NLP ที่มา: https://beyondvoice.ai/voice-transcription/
หน้าที่ของ NLP ที่กล่าวมาข้างต้น ลวนแต่มีเป้าหมายเดียวกันคือการแปลงข้อมูลดิบที่เป็นภาษาของมนุษย์ใหเป็นข้อมูลที่อุปกรณ์สามารถนำไปใช้งานต่อได้ ไม่ว่าจะผานอัลกอริทึมและกระบวนการทางภาษาต่าง ๆ โดยเทคโนโลยี NLP นั้น เป็นเบื้องหลังและอาวุธที่ซ่อนอยู่ภายใต้ความอัจฉริยะคอมพิวเตอร์ ซึ่งคนทั่วไปอาจจะไม่เคยทราบและรู้จักมาก่อน โดยเฉพาะอย่างยิ่งในโลกธุรกิจ มีการใช้เทคโนโลยีนี้อย่างแพร่หลาย เห็นได้จากตลาด NLP กำลังเติบโตอย่างมาก ตามรายงานของ Fortune Business Insights นั้น คาดว่า มูลค่าตลาดเทคโนโลยี NLP ทั่วโลกจะเติบโตจาก 20.98 พันล้านเหรียญสหรัฐ ในปี 2564 เป็น 127.26 พันล้านเหรียญสหรัฐ ในปี 2571 เนื่องจากมีการใช้อุปกรณ์อัจฉริยะ (Smart Devices) ที่เพิ่มมากขึ้น รวมทั้งการใช้เทคโนโลยีดังกล่าวในภาคสาธารณสุขเพิ่มสูงขึ้นเพราะจำนวนข้อมูลของผู้ป่วยขยายขนาดขึ้นตั้งแต่ช่วงการแพร่ระบาดของโรคโควิด-19 เป็นต้นมา โดยตัวอย่างผลงานของเทคโนโลยีนี้ที่เป็นที่รู้จัก นอกจากจะช่วยแปลภาษาแล้ว ยังมีบทบาทดังต่อไปนี้
นอกจากตัวอย่างข้างต้นแล้ว เทคโนโลยี NLP ยังมีประโยชน์อีกมากมาย ทั้งช่วยค้นหา และจับคู่ข้อมูลในเอกสาร (Document Search and Match) การวิเคราะห์เอกสารแบบอัจฉริยะ (Intelligent Document Analysis) หรือแม้แต่การป้องกันภัยคุกคามภายใน (Insider Threat Detection) ซึ่งเทคโนโลยีนี้มีการใช้กันอย่างแพร่หลายในระดับสากล และมีภาษาอังกฤษเป็นภาษาหลักที่ได้รับการพัฒนา ในส่วนของภาษาไทยเอง ก็มีหลายสถาบันและภาคส่วนกำลังผลักดัน เช่น สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence (AI) Research Institute) ที่อยู่ระหว่างการสร้างและพัฒนาชุดข้อมูลภาษา (Language Model) ด้วยข้อมูลภาษาไทยขนาดใหญ่ โดยเปิดให้ทุกคนสามารถเข้าถึงและใช้โมเดลดังกล่าวได้ผ่าน https://huggingface.co/airesearch นอกจากนี้ ยังมีการร่วมมือกันระหว่าง จุฬาลงกรณ์มหาวิทยาลัย ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) และธนาคารกสิกรไทย ผ่านโครงการ Thai NLP ที่มุ่งพัฒนาโปรแกรมที่ทำความเข้าใจความหมายของภาษาไทยในเชิงลึก เข้าใจอารมณ์และเจตนาของผู้ใช้งาน เพื่อให้หน่วยงานของรัฐหรือเอกชนต่าง ๆ นำไปประยุกต์ใช้ โดย Thai NLP ได้ช่วยในกระบวนการทำผลสำรวจความพึงพอใจของลูกค้า จากขั้นตอนเดิมที่ได้ผลตอบแบบสอบถาม 30,000 รายต่อเดือน NLP เพิ่มจำนวนเป็น 600,000 รายต่อเดือน และยังเพิ่มระดับความแม่นยำใน การเข้าใจลูกค้า จากความแม่นยำประมาณ 80% ซึ่งเท่ากับมาตรฐานของตลาดเมื่อก่อนใช้ NLP เพิ่มขึ้นเป็น 90-95% หลังจากนำมาใช้อีกด้วย
สุดท้ายแล้ว เทคโนโลยีดังกล่าวโดยเฉพาะชุดข้อมูลภาษาไทย ยังคงต้องการการพัฒนาอีกมาก เพื่อตอบสนองความต้องการจากทุกภาคส่วนในประเทศไทย โดยเฉพาะภาคธุรกิจ อย่างไรก็ตาม ประเทศไทยยังคงขาดบุคลากร ผู้เชี่ยวชาญ และแพลตฟอร์มกลางที่เอื้อต่อการร่วมกันพัฒนาเทคโนโลยีดังกล่าว ดังนั้น ทุกภาคส่วนควรร่วมมือกัน ทั้งเพิ่มจำนวนนักพัฒนา ผ่านการสร้างความตระหนักและการรับรู้ของประชาชน โดยเฉพาะเยาวชนคนรุ่นใหม่ให้รู้จักศาสตร์แขนงนี้มากขึ้น และร่วมมือกันระหว่างหน่วยงานภาครัฐและเอกชนผลักดันการพัฒนาเทคโนโลยีดังกล่าวให้แพร่หลาย เป็นของคนไทย ด้วยคนไทย และเพื่อคนไทย
ญาณภา ฉัตรกุล ณ อยุธยา
ฝ่ายนโยบายและยุทธศาสตร์
สำนักงานส่งเสริมเศรษฐกิจดิจิทัล
อ้างอิง