ทักษะการทำความเข้าใจและสื่อสารข้อมูลออกไปเป็นทักษะที่สำคัญในศตวรรษที่ 21 เพราะ Data Science กับ AI มีผลต่อหลายอุตสาหกรรม ไม่ใช่แค่ธุรกิจ แต่ภาครัฐ การแพทย์ การเกษตร ข้อมูลข่าวสารที่ถูกนำเสนอด้วยโมเดลทำนายเหตุการณ์ล่วงหน้าก็มีมากขึ้น
ที่สำคัญคือข้อมูลส่วนตัวที่เราแชร์ให้กับคนอื่นจะเป็นตัวกำหนดว่าเราจะมีปฏิสัมพันธ์อย่างไรกับสังคม
ฉะนั้นไม่ว่าเราจะทำงานเกี่ยวกับ Data โดยตรงหรือไม่ ความสามารถในการเข้าใจและสื่อสารข้อมูลออกไปจึงเป็นทักษะที่ทุกคนต้องฝึกฝน รู้ว่าข้อมูลถูกสร้าง เก็บ และรักษาไว้อย่างไร? ลักษณะของข้อมูลเป็นอย่างไร? ความรู้ทางด้านสถิติ ข้อควรระวังและจริยธรรมในการใช้ข้อมูล
ลักษณะของ Data ทั้ง 3 แบบที่ควรเข้าใจ
1. ข้อมูลที่มาเป็นแบบตาราง (Tabular Data)
ข้อมูลแบบนี้เราเห็นประจำโดยเฉพาะคนที่ทำงานกับ Microsoft Excel ประจำ ปัจจุบันมีการใช้ Machine Learning เพื่อคาดคะเนราคาที่พักของ AirBnB โดยใช้ Tabular Data ซึ่งในข้อมูลก็จะมีคอลัมน์รายละเอียดต่างๆไม่ว่าจะเป็นเฟอร์นิเจอร์ ของใช้ในบ้าน จำนวนห้องในบ้าน ตำแหน่งที่พัก ราคาของการให้พักแต่ละคืน และรายได้ของที่พักแต่ละปี
ข้อมูลพวกนี้จะถูกป้อนเพื่อฝึกและให้ Machine Learning เรียนรู้ที่จะทำนายราคาที่พักของ AirBnB และรายได้ที่ AirBnB จะได้รับจากลูกค้า
2. ข้อมูลรูปภาพ (Image Data)
ข้อมูลรูปภาพถูกเอาไปทำเป็น Facial Recognition ในสื่อสังคมออนไลน์และแอปฯมือถือต่างๆ แต่ความล้ำหน้าของการนำรูปภาพไปใช้ยังมีมากกว่านั้น อย่างในวงการแพทย์ก็สามารถหาเยื่อมะเร็งในภาพที่ได้จาก PET และ CT Scan วงการรถยนต์อย่าง Self-Driving Car ที่สแกนหาวัตถุที่อยู่ตรงหน้า และแยกแยะว่าวัตถุนั้นคืออะไร
ส่วนวิธีการแปลงข้อมูลรูปภาพนั้น เรารู้ว่า pixel ของสีที่อยู่ในภาพ มีรหัสสีกำกับอยู่ระหว่างสีเขียว น้ำเงิน แดง ซึ่งค่าเหล่านี้เราก็ใส่เข้าไปในโมเดลเพื่อทำนายสีหรือรูปร่างของวัตถุได้
3. ข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data)
เป็นข้อมูลที่ยังไม่ถูกจัดระเบียบ เพื่อพร้อมสำหรับการวิเคราะห์ข้อมูล ส่วนใหญ่จะมาในรูปแบบของข้อความ หรือ Natural Language ข้อมูลที่เป็นข้อความเรามักจะเห็นในบทความต่างๆในเว็บไซต์หรือสื่อสังคมออนไลน์
แล้วเรามาแปลงข้อความพวกนี้เป็นตัวเลขเพื่อให้ Machine Learning ทำนายต่อไปว่าข้อความพูดถึงเรื่องอะไร ข้อความนั้นอยู่ในหมวดไหน (การเมือง เศรษฐกิจ หรือสังคม) แล้วเรื่องนั้นๆคนพูดถึงในทางที่ดีหรือไม่ (Sentiment Analysis)
ความท้าทายมันไม่ได้อยู่แค่ว่าข้อมูลที่มีเป็นรูปแบบไหน แต่รู้ว่าต้องเก็บข้อมูลแต่ละแบบ ต้องเก็บแบบไหน ข้อมูลมที่รวบรวมได้กำลังจะบอกอะไรเรา แล้วเราไว้ใจข้อมูลที่ได้มามากน้อยแค่ไหนด้วย
แหล่งอ้างอิงส่วนหนึ่งมาจาก
Understanding the Type of Data and How They Are Captured โดย Hugo Bowne Anderson จาก Harvard Business Review: Strategic Analytics