
Machine Readable คำสำคัญที่ต้องเข้าใจ สำหรับคนยุค Big Data และ Open Data
ยุคนี้เป็นยุคของ Big Data ข้อมูลมีมากมายล้นเหลือ อีกคำที่เสริมกับ Big Data ก็คือคำว่า Open Data ซึ่งมีการพูดถึงมานานในหลายประเทศ ประเทศไทยเราเองก็มีหน่วยงานสำนักงานพัฒนารัฐบาลดิจิทัล สังกัดสำนักนายกฯ (เดิมชื่อสำนักงานรัฐบาลอิเล็กทรอนิกส์ สังกัดกระทรวงดิจิทัลเพื่อเศรษญกิจและสังคม) ทำหน้าที่โปรโมทเรื่อง Open Data ภาครัฐ
สำหรับในต่างประเทศ เรื่อง Open Data เป็นสิ่งที่เบ่งบานตื่นตัวมานาน เช่น ในสหรัฐอเมริกาซึ่ง นายบารัก โอบามา ถึงขนาดลงนามในคำสั่งประธานาธิบดี เมื่อ พฤษภาคม พ.ศ. 2556 [1] ให้รัฐบาลสหรัฐมีหน้าที่เปิดข้อมูลที่ตนถือครองหรือดูแลต่อสาธารณะ ในคำสั่งดังกล่าวระบุจุดมุ่งหมายในการเปิดข้อมูลอย่างชัดเจน คือ เพื่อส่งเสริมการพัฒนากิจการใหม่ๆ การพัฒนานวัตกรรม การค้นพบทางวิทยาศาสตร์ ซึ่งจะส่งผลกระทบโดยตรงต่อการยกระดับคุณภาพชีวิตของคนอเมริกันและเพื่อการจ้างงาน เช่น การนำข้อมูลภาพถ่ายดาวเทียมมาใช้วิเคราะห์จนค้นพบอัตราการละลายของน้ำแข็งขั้วโลกที่สูงขึ้นเรื่อย ๆ ส่งผลให้เกิดการรณณรงค์เรื่องภาวะโลกร้อน หรือ การนำข้อมูลตำแหน่งรถประจำทางจาก GPS ของรัฐมาพัฒนาเป็นแอ๊พบริการแจ้งเตือนและทำนายรถเข้าป้าย นอกจากคำสั่งดังกล่าว จะระบุให้เปิดข้อมูลให้สาธารณะแล้ว ยังเน้นให้เกิดการใช้ประโยชน์จากข้อมูลได้จริง โดยในคำสั่งยังกำหนดว่าต้องเปิดข้อมูลในรูปแบบที่นำไปวิเคราะห์ประมวลผลต่อได้ง่าย ๆ หรือศัพท์เทคนิคเรียกว่า machine readable ด้วย
สำหรับในเมืองไทย คำว่า machine readable ยังไม่ค่อยมีความตระหนักหรือเข้าใจกันมากนัก ส่วนใหญ่ขอแค่ให้เปิดข้อมูลก็ถือว่าน่าซาบซื้งมากแล้ว อย่างไรก็ตาม หากจะให้เกิดการใช้ประโยชน์ข้อมูลได้อย่างมีประสิทธิภาพ จำเป็นอย่างยิ่งที่ภาครัฐจะต้องเข้าใจ machine readable และต้องทำข้อมูลให้อยู่ในรูปแบบ machine readable ก่อนเผยแพร่
ลองพิจารณารูปด้านล่าง แสดงให้เห็นตัวอย่างข้อมูลจากแหล่งต่าง ๆ ในประเทศไทย โดยเป็นการเปรียบเทียบให้เห็นความยุ่งยากในการนำข้อมูลไปใช้งาน ขอเน้นย้ำก่อนว่า ตัวอย่างที่นำมาแสดง นั้นเพื่อให้ผู้อ่านเกิดความเข้าใจเท่านั้น ไม่ได้มีเจตนาจะกล่าวหาหรือโจมตีหน่วยงานใด หรือบุคคลใดในทางลบทั้งสิ้น
จากในรูปที่ 1 เป็นเว็บที่ให้ข้อมูลระดับน้ำในแม่น้ำเจ้าพระยา วัดที่ปากคลองตลาด โดยข้อมูลถูกนำมาแปลงเป็นภาพ (นามสกุล .gif) แล้วแสดงตรง ๆ ซึ่งจุดประสงค์น่าจะเพื่อใช้นำเสนอผู้บริหารบนจอขนาดใหญ่เป็นหลัก อย่างไรก็ตามเมื่อพิจารณาในมุม machine readable แล้ว จะพบว่าผู้ใช้แทบจะนำข้อมูลไปประมวลผลไม่ได้เลย เพราะตัวเลขต่าง ๆ ถูกฝังอยู่เป็นส่วนหนึ่งของรูปภาพ
ในรูปที่ 2 เป็นระดับที่ดีกว่ากรณีที่แสดงในรูปที่ 1 กล่าวคือ มีการจัดทำเป็นตาราง ในลักษณะไฟล์ html สำหรับเปิดบนเว็บ ทำให้ข้อมูลตัวเลขต่าง ๆ สามารถคัดลอกนำมาใช้งานได้ อย่างไรก็ตาม ยังเป็นภาระของฝั่งผู้ใช้ข้อมูลอยู่พอสมควร
ในรูปที่ 3 เป็นหน้าจอของเว็บ data.go.th ซึ่งมีข้อมูลจำนวนรถจดทะเบียน เป็นไฟล์ excel ให้ดาวน์โหลดไปใช้งานได้ นับว่าอำนวยความสะดวกให้กับผู้ใช้ได้มากขึ้น
ในรูปที่ 4 เป็นตัวอย่างไฟล์ Excel ที่ดาวน์โหลดมาจากสำนักงานสถิติแห่งชาติ แสดงสถิติการหย่าร้างแยกตามจังหวัดและภาค สังเกตว่ามีการปะปนกันระหว่างคำอธิบายข้อมูล (metadata) และเนื้อข้อมูล (data) คำอธิบายข้อมูล เช่น ชื่อข้อมูลที่ปรากฎที่หัวตาราง ข้อมูลสรุปแยกตามภาค (ซึ่งถือว่าซ้ำซ้อนเนื่องจากข้อมูลจากจังหวัดสามารถรวมขึ้นมาเป็นภาคได้อยู่แล้ว) ตลอดจน มีการเก็บตัวเลขทั้ง ปี พ.ศ. และ ค.ศ. ซ้อนกันในคอลัมภ์เดียว ลักษณะเช่นนี้ทำให้ผู้ใช้ต้องลบคำอธิบายข้อมูลหรือข้อมูลอื่นที่ไม่จำเป็นออกไปก่อน จึงจะสามารถใช้งานได้
ตัวอย่างข้อมูลที่พร้อมนำไปใช้งาน แสดงในรูปที่ 5 ซึ่งได้นำข้อมูลที่ไม่จำเป็นอื่น ๆ ออกไปแล้ว อย่างไรก็ตาม ขอให้พึงระลึกว่าแม้คำอธิบายข้อมูล (เช่นชื่อหัวตาราง) จะถือว่าไม่จำเป็นสำหรับการประมวลผล แต่ข้อมูลเหล่านี้ยังมีความสำคัญในการบ่งบอกถึงที่มา ประเภท และลักษณะข้อมูล ซึ่งจำเป็นต่อความเข้าใจเบื้องต้นก่อนนำข้อมูลมาใช้ วิธีแก้ปัญหาคือควรจัดเตรียมคำอธิบายข้อมูลแยกเอาไว้ต่างห่างจากเนื้อข้อมูล โดยอาจจะแยกเป็นคนละไฟล์ หรือจะใช้ความสามารถของการเก็บข้อมูลในรูปแบบ XML ซึ่งสามารถเก็บทั้งคำอธิบายข้อมูลและเนื้อข้อมูลรวมกันในไฟล์เดียวกันได้ โดยไม่ทำให้โปรแกรมคอมพิวเตอร์สับสน
สรุป การที่ Big Data และ Open Data จะส่งผลให้ข้อมูลเกิดการนำมาใช้งานอย่างมีประสิทธิภาพได้ จริง ย่อมจำเป็นที่เจ้าของหรือผู้ให้บริการข้อมูลต้องเข้าใจหลักการของ machine readable อย่างถ่องแท้ พร้อมทั้งดำเนินการจัดเตรียมข้อมูลของตนให้อยู่ในรูปแบบ machine readable อย่างถูกต้องเหมาะสม ผลจากการดำเนินการจะทำให้สามารถลดแรงงานและเวลาในการจัดเตรียมข้อมูลในฝั่งผู้ใช้ข้อมูลลงได้มาก และทำให้บรรลุผลการวิเคราะห์ข้อมูลได้ในระยะเวลาที่สั้นลง นับเป็นยุคของ Big Data และ Open Data อย่างแท้จริง
หมายเหตุ นิยามของคำว่า Machine Readable ที่เป็นทางการสามารถอ้างอิงได้จาก [2] และแนวทางการทำให้ข้อมูลเป็น machine readable สามารถอ่านเพิ่มเติมได้จาก [3]
[1] The White House Office of the Press Secretary (May 2013), Executive Order -- Making Open and Machine Readable the New Default for Government Information.
[2] Open Data Handbook, Machine readable, http://opendatahandbook.org/glossary/en/terms/machine-readable/.
[3] Tiana Warner (July 2016), Understanding XML: The Human’s Guide to Machine-Readable Data, https://blog.safe.com/2016/07/understanding-xml-humans-guide-machine-readable-data/.
ขอบคุณบทความดีดีจาก
ดร.มนต์ศักดิ์ โซ่เจริญธรรม
ผู้เชี่ยวชาญพัฒนาโครงการดิจิทัลและนวัตกรรมอาวุโส
สำนักงานส่งเสริมเศรษฐกิจดิจิทัล (depa)
