รู้จักกับบิ๊กดาต้า Big Data Ecosystems

บิ๊กดาต้าคืออะไร

บิ๊กดาต้า (Big Data) คือเทคโนโลยีและสถาปัตยกรรมไอทีรุ่นใหม่ ที่ได้รับการออกแบบให้สามารถรองรับการเก็บ วิเคราะห์ และใช้งานดาต้าหลากหลายประเภท ที่เปลี่ยนแปลงอย่างรวดเร็ว และมีปริมาณมหาศาลได้โดยมีต้นทุนต่ำเมื่อเทียบกับเทคโนโลยีและสถาปัตยกรรมไอทีแบบเดิม นั่นทำให้คำว่า “บิ๊กดาต้า” มิได้หมายถึงเฉพาะตัวดาต้าเองเท่านั้น แต่ยังหมายถึงประเภทของเทคโนโลยีแบบใหม่ที่สามารถบริหารจัดการ สร้างการเข้าถึง และวิเคราะห์ดาต้าที่มีปริมาณมากขึ้นได้อย่างรวดเร็วขึ้นกว่าที่เทคโนโลยีแบบเดิมจะสามารถทำได้

เทคโนโลยีบิ๊กดาต้าประกอบด้วยฮาร์ดแวร์และซอฟต์แวร์ที่ควบรวม (integrate) จัดระเบียบ (organize) บริหารจัดการ (manage) และนำเสนอดาต้า (present) ที่มีลักษณะเป็น 3 V ดังต่อไปนี้

ปริมาณ (volume) คือขนาดของดาต้า ซึ่งการวัดว่า “มาก” หรือ “น้อย” นั้นไม่ได้มีตัวเปรียบเทียบที่แน่นอน ขึ้นอยู่กับแต่ละอุตสาหกรรม องค์กร หรือแอพพลิเคชัน โดยในความเป็นจริงแล้ว ขนาดมิได้สำคัญเท่ากับอัตราการเพิ่มขึ้นของดาต้าเมื่อเทียบกับวิธีการแบบดั้งเดิม

ความหลากหลาย (variety) คือประเภทของตัวดาต้าและแหล่งที่มาของดาต้าที่แตกต่างกัน ซึ่งนี่คือลักษณะสำคัญของดาต้าที่กำลังเป็นเปลี่ยนไป ความท้าทายที่มาพร้อมกับการเปลี่ยนแปลงนี้คือการจัดเก็บ วิเคราะห์ และดึงเอาข้อมูลเชิงลึก (insight) ออกมาจากดาต้าเหล่านี้

ความเร็ว (velocity) คือความเร็วของการเปลี่ยนแปลงของดาต้า ซึ่งส่งผลให้เทคโนโลยีการวิเคราะห์ดาต้าที่มีความสามารถในการวิเคราะห์ในช่วงเวลาสั้น ๆ นั่นคือในระดับนาที มิใช่ระดับชั่วโมงหรือระดับวัน กลายเป็นเทคโนโลยีสำคัญสำหรับองค์กรที่ต้องการตอบสนองต่อสภาพตลาดและความต้องการของลูกค้าที่เปลี่ยนไปอย่างรวดเร็ว หรือแม้กระทั่งการตรวจจับหลักฐานการทุจริตต่าง ๆ

ห่วงโซ่มูลค่าในอุตสาหกรรมบิ๊กดาต้า Big Data ประกอบด้วยอะไรบ้าง

ผู้พัฒนาและผู้ผลิตเทคโนโลยีที่เกี่ยวข้องกับบิ๊กดาต้าและอนาไลติกส์นั้นมีหลากหลายประเภท ไม่ว่าจะเป็นผู้พัฒนาและผู้ผลิตเทคโนโลยีด้านฮาร์ดแวร์โครงสร้างพื้นฐานระบบ เครื่องมือและแพลตฟอร์มทางธุรกิจ เครื่องมือและแพลตฟอร์มเทคโนโลยีสารสนเทศ เครื่องมือและแพลตฟอร์มการบริหารและควบรวมดาต้า รวมถึงเครื่องมือและแพลตฟอร์มอนาไลติกส์ และแอพพลิเคชันทางธุรกิจ

การแบ่งผู้พัฒนาและผลิตเทคโนโลยีออกเป็นแต่ละประเภทตามห่วงโซ่มูลค่า จะช่วยให้เข้าใจถึงบทบาทของแต่ละรายมากขึ้น การแบ่งประเภทผู้พัฒนาและผลิตเทคโนโลยีตามห่วงโซ่มูลค่าของการค้นหาข้อมูลเชิงลึก โดยมีการยกตัวอย่างผู้พัฒนาหรือชื่อผลิตภัณฑ์บางส่วนเพื่อใช้ประกอบการอธิบายดังนี้

ประเภทผู้พัฒนาและผลิตเทคโนโลยีตามห่วงโซ่มูลค่าของการค้นหาข้อมูลเชิงลึก

การรวบรวมดาต้าจากแหล่งต่าง ๆ (Data Ingestion)

เป็นจุดเริ่มต้นของห่วงโซ่มูลค่า ซึ่งสำหรับบิ๊กดาต้านั้นจำเป็นต้องมีเครื่องมือรองรับการทำคิวรี (query) ที่ใช้ระยะเวลาในการส่งแพ็กเก็ตข้อมูลต่ำ (low latency) สำหรับการจัดการกับดาต้าปริมาณสูงในสภาพแวดล้อมที่แยกออกจากกัน

โดยเครื่องมือประเภทฮาดูป (Hadoop) ซึ่งเป็นแหล่งจัดเก็บดาต้าเชิงไม่สัมพันธ์ (nonrelational data store) มีการใช้งานอย่างแพร่หลายในขั้นตอนนี้ ในขณะที่คลังข้อมูลเชิงสัมพันธ์ (Relational Data Warehouse) ในปัจจุบันก็มีการพัฒนาเครื่องมือที่มีความยืดหยุ่นและประสิทธิภาพมากขึ้นเช่นกัน นอกจากนี้แพลตฟอร์มประเภทคอนเทนเนอร์ (Container Platform) ก็เป็นส่วนสำคัญของการเคลื่อนย้ายหรือปรับขนาดของแหล่งจัดเก็บดาต้าในสภาพแวดล้อมต่าง ๆ

การคัดกรองและเรียบเรียงดาต้า (Data Curation)

เป็นการสร้างความมั่นใจว่าดาต้ามีคุณภาพและมีความถูกต้อง ซึ่งถือเป็นขั้นตอนสำคัญในการสร้างมูลค่าให้กับดาต้า และยังเป็นขั้นตอนที่กินเวลานานอีกด้วย ทว่าในความเป็นจริงหลายองค์กรต้องหาหนทางในการใช้ประโยชน์จากดาต้าที่สร้างโดยกระบวนการธุรกิจ กระบวนการปฏิบัติงาน และธุรกรรมต่าง ๆ ที่มีรูปแบบเฉพาะและมีคุณภาพที่แตกต่างกันจนไม่สามารถนำมาใช้งานได้ทันที ซึ่งส่งผลให้หลายองค์กรจำเป็นต้องใช้บริการที่ปรึกษาจากที่ปรึกษาเพื่อสร้างการกำกับดูแลดาต้าที่ดี หรือบริการคราวด์ซอร์สซิงเพื่อระบุประเภทและทำความสะอาดดาต้า เป็นต้น

การสร้างโมเดล (Model Building)

สามารถแบ่งออกได้เป็นการวิเคราะห์ข้อมูลเชิงทำนายขั้นสูง (advanced predictive analytics) การวิเคราะห์เนื้อหาและข้อความอักษร (content and text analytics) การวิเคราะห์ข้อมูลเชิงพื้นที่ (spatial analytics) การวิเคราะห์กระแสดาต้า (streaming analytics) และแพลตฟอร์มสร้างโมเดลโดยระบบคอมพิวเตอร์เสมือนมนุษย์และปัญญาประดิษฐ์ (cognitive/AI modeling platform) เป็นต้น

ซึ่งมักต้องอาศัยความสามารถในการประมวลผลบิ๊กดาต้าในระดับสูง โดยเฉพาะอย่างยิ่งเมื่อมีการใช้งานอัลกอริทึมการเรียนรู้เชิงลึก (deep learning algorithm) และทักษะของนักวิทยาศาสตร์ข้อมูลก็เป็นอีกหนึ่งปัจจัยที่จำเป็นต่อการสร้างโมเดลในขั้นตอนนี้

การนำเสนอดาต้าในเชิงภาพ (Data Visualization)

คือการแสดงผลของดาต้าออกมาในรูปแบบของกราฟิกต่าง ๆ เช่น แผนภาพเชิงสถิติ เช่น histogram, box plot, และ scatter plot เป็นต้น โดยในกระบวนการตั้งแต่การคัดกรองและเรียบเรียงดาต้า (Data Curation) การสร้างโมเดล (Model Building) ตลอดจนถึงการนำเสนอดาต้าในเชิงภาพ (Data Visualization) มักเป็นกระบวนการที่ต้องอาศัยการทำซ้ำในการใช้งาน

การใช้งานโมเดล (Model Consumption)

มักเป็นขั้นตอนสุดท้ายของกระบวนการค้นหาข้อมูลเชิงลึก โดยบางองค์กรถือว่าการค้นหาข้อมูลเชิงลึกเป็นกระบวนการที่ให้ผลลัพธ์เป็นบทสรุปต่าง ๆ เช่น รายงาน แต่หลายองค์กรได้เริ่มเล็งเห็นถึงประโยชน์ของการเปลี่ยนข้อมูลเชิงลึกให้เป็นการ “กระทำ” กิจกรรมต่าง ๆ ได้ทันที จึงเริ่มมีการสร้างช่องทางการเชื่อมต่อระหว่างแอพพลิเคชันประเภท API (Application Programming Interface) เพื่อให้แอพพลิเคชันทางธุรกิจต่าง ๆ สามารถดึงโมเดลไปใช้งานที่ทันที ผ่านการใช้งานแพลตฟอร์มการบริหารจัดการ API สำหรับเรียลไทม์อนาไลติกส์

แอพพลิเคชันการวิเคราะห์ธุรกิจ (Analytical Business Application)

นอกจากนี้ ในปัจจุบันยังมีโซลูชันบริหารจัดการการปฏิบัติงานขององค์กร ที่ได้รับการติดตั้งความสามารถด้านอนาไลติกส์เข้ารวมไว้ด้วย ซึ่งสามารถทำการรวบรวมดาต้า คัดกรองและเรียบเรียงดาต้า และวิเคราะห์ดาต้าให้กับผู้ใช้งานได้เลย ได้แก่ แอพพลิเคชันบริหารจัดการความสัมพันธ์กับลูกค้า (CRM) เชิงวิเคราะห์ แอพพลิเคชันบริหารจัดการซัพพลายเชน (SCM) เชิงวิเคราะห์ และแอพพลิเคชันวางแผนการผลิต (production planning) เชิงวิเคราะห์ เป็นต้น