Star Tech : Big Data EP. 2


การพัฒนาของ Big Data ว่ามีที่มาที่ไปมายาวนานแค่ไหน ดร.แป้ง (ดร.อสมา กุลวานิชไชยนันท์) จะมาอธิบายให้เข้าใจกัน

ยุคก่อนหน้านี้ การบริหารข้อมูลจะอยู่ในรูป Data Warehouse ซึ่งโดยส่วนใหญ่จะเป็นการบริหารข้อมูลแบบ Sturctured Data เท่านั้น อย่างไรก็ตาม ในปัจจุบัน มีข้อมูลแบบ Unstructured Data เกิดขึ้นจำนวนมาก เช่น ข้อมูลในสื่อออนไลน์ ข้อมูลจากภาพ หรือเสีย ทำให้รบบ Warehouse แบบเดิมไม่ตอบโจทย์ในการทำงาน เป็นที่มาของการออกแบบ Data Lake ที่สามารถเก็บทั้งข้อมูลแบบ Structured Data และ UnStructured Data ได้

ข้อมูลที่มีโครงสร้างต่างกัน จะมีวิธีในการบริหาร จัดเก็บ และวิเคราะห์ต่างกัน ดังนั้นในการลงทุน หรือ ออกแบบโครงการที่มีข้อมูลที่หลายหลาย จึงจำเป็นอย่างยิ่ง ที่จะต้องเข้าใจพื้นฐานโครงสร้าง และความละเอียดของการใช้ข้อมูล เพื่อสามารถพัฒนา หรือมองหาเทคโนโลยีที่ตอบโจทย์ได้อย่างเหมาะสมต่อไป

ในยุคก่อนหน้านี้จะใช้คำว่า High Dimensional Data เมื่อกล่าวถึงชุดข้อมูลขนาดใหญ่ ซึ่งส่วนใหญ่อยู่ในรูปแบบ Structured Data ในขณะที่คำว่า BigDAta จะหมายถึงข้อมูลที่หลายหลาย มีทั้งแบบ Sturctured Data และ Unstructured Data

สำหรับการสร้าง Model นั้น โดยธรรมชาติแล้ว Machine Learning จะเรียนรู้จาก Sturctured Data เพราะการเรียนรู้เกิดขึ้นจากการหา Pattern หรือ ความสัมพันธ์ของข้อมูลนั้น ๆ ส่วนการสร้าง Model สำหรับ Unstructured Data จะมีขั้นตอนการแปลง Data ให้มีโครงสร้าง หรือทำให้เป็น Structured Data เสียก่อน เช่นในตัวรูปภาพ จะมีสีที่แตกต่างกัน โดยแต่ละสี มีตัวเลขที่บ่งบอกถึงสีนั้น ๆ ดังนั้น AI ประเภท Image Processing จึงเรียนรู้จากโค้ดของสีในภาพที่เป็น Structured แล้วนั่นเอง