องค์ประกอบของโครงการ Big Data
มี 5 ส่วน ประกอบด้วย
- แหล่งที่มาของข้อมูล หรือ Data Source
ซึ่งหากกล่าวถึงคำว่า Big Data ลอย ๆ ที่ไม่ใช่การทำโครงการ Big Data จะหมายถึงส่วนแรกส่วนนี้เท่านั้น ในความเป็นจริง มีข้อมูลเยอะ แต่ไม่สามารถบริหารจัดการ หรือนำไปใช้ประโยชน์ต่อได้ ก็เหมือนกับการนำหิน ดิน ทราย มากองอยู่หน้าบ้าน แต่ไม่มีใครสามารถก่อร่างขึ้นมาเป็นอาคารได้ จึงต้องมีส่ว่นประกอบอื่น ๆ เข้ามาเกี่ยวข้อง
ที่มีของข้อมูล อาจมีที่มาจากข้อมูลภายในที่เก็บได้เอง เช่น ข้อมูลคำสั่งการซื้อขายาในระบบ E-Commerce หรือข้อมูลปริมาณการผลิตในโรงงานอุตสาหกรรมเป็นต้น และยังมีข้อมูลจากภายนอกอีกด้วย เช่น ข้อมูลการจราจร ข้อมูลสภาพอากาศ
- การเชื่อมโยงข้อมูล หรือ Data Integration
เมื่อแหล่งข้อมูลมีความหลายหลาย และมีโครงการการเก็บข้อมูลที่แตกต่างกัน ทำให้เกิดเป็นอุปสรรคในการเชื่อมโยงข้อมูล ปัญหาข้อมูลจากแหล่งต่าง ๆ แยกส่วนกันเก็บ และมีค่าที่ไม่ตรงกัน เป็นปัญหาที่พบได้บ่อยและทั่วไป ซึ่งแนวทางการแก้ไขก็ชัดเจนในอยู่ในตัวเอง ก็คือ ต้องทำความสะอาด และออกแบบช่องทางให้เก็บรวบรวมข้อมูลเอาไว้ที่เดียว เพื่อให้เกิดความสมบูรณ์แบบของข้อมูลมากที่สุด
- การเก็บรักษาข้อมูล หรือ Data Storage
การเก็บรักษาข้อมูลในที่นี้ คือ ระบบกลางที่สามารถเก็บรวบรวมข้อมูลจากข้อมูลหลาย ๆ แหล่ง ไม่ใช่ระบบ Software ที่สามารถเก็บข้อมูลในอดีตได้ บางครั้ง จะอ้างอิงส่วนนี้ว่าเป็นการบริหารข้อมูล หรือ Data Management เนื่องจากเกี่ยวข้องกับการเก็บ และการเข้าถึงช้อมูล (ไม่ใช่การเชื่อมโยง แต่เป็นการเข้าถึง) โดยการเก็บจะกล่าวถึงรูปแบบในการเก็บ และการเข้าถึง จะกล่าวถึงแนวทางในการนำเข้า และนำออกจากที่เก็บ หรือ Storage
ติดตามตอนต่อไปได้ที่ Big Data Ep. 4