Dark-Data ข้อมูลที่ถูกทอดทิ้ง

ผศ.ดร.วรพล พงษ์เพ็ชร สาขาวิชา Business Analytics and Intelligence
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์

ผมได้มีโอกาสบรรยายหัวข้อ ข้อมูลมืด Dark Data ให้ในงาน the Second Business Analytics and Data Science Conference ที่ NIDA เห็นว่ามีหลายคนสนใจที่จะนำไปใช้ในองค์กร บทความชุดนี้ขึ้นเพื่อจะได้เห็นภาพได้ชัดเจนและสามารถนำไปประยุกต์ให้เข้ากับองค์กรได้อย่างมั่นใจยิ่งขึ้น ก่อนอื่นเรามาทำความเข้าใจด้วยกันก่อนถึงข้อมูลที่จะกล่าวถึงในบทความนี้ ข้อมูลที่ผมจะกล่าวถึงนี้คือข้อมูลทางธุรกรรมต่างๆ ที่เป็นดิจิทัลที่เป็น ปริมาณ อักขระ หรือสัญลักษณ์ในการดำเนินการอันกระทำโดยคอมพิวเตอร์ เก็บและบันทึกลงในสื่อแม่เหล็ก เชิงแสง และจัดเก็บทั้งในฐานข้อมูลเชิงสัมพันธ์และหรือฐานข้อมูล NoSQL ตัวอย่างของข้อมูลเหล่านี้เช่น ข้อมูลลูกค้า ข้อมูลเครือข่ายอินเทอร์เน็ต ข้อมูลการฟีดแบคจากลูกค้า ข้อมูล IP ข้อมูลแบบสอบถามต่างๆ ข้อมูลอีเมลโต้ตอบ หรือข้อมูลทางการเงินของลูกค้าต่างๆ

ความหมายของ Dark Data หรือข้อมูลมืด คือข้อมูลที่นำเข้ามาในระบบแต่ไม่ได้รับการนำมาใช้ให้เป็นประโยชน์ภายในเวลาที่เหมาะสม เช่นข้อมูลด้านตำแหน่งของลูกค้าบัตรเครดิต ซึ่งถ้าไม่ได้ถูกใช้ในเวลาที่ลูกค้าบัตรเครดิตกำลังซื้อของ ณ เวลานั้น ก็ไม่สามารถนำมาป้องกันการทุจริตบัตรเครดิตได้ แปลว่าข้อมูลนั้นจะมีประโยชน์เพียงแค่ช่วยในการติดตามแก้ไขแต่ไม่ได้นำมาสามารถหยุดการทุจริตได้ เพราะเหตุได้เกิดไปแล้ว 

IBM ประมาณไว้คร่าวๆ ว่ากว่า 60% ของข้อมูลที่ไม่ได้ถูกใช้ทันทีจะหมดคุณค่าฉับพลัน จุดนี้แสดงว่าข้อมูลเหล่านี้ถ้าไม่ได้รับการประมวลผลในทันทีเพื่อใช้ก็จะกลายเป็นหมดคุณค่าและแปรสภาพไปเป็นข้อมูลมืดในทันทีและเกิดการสูญเสียโอกาสในทางธุรกิจ ข้อมูลเหล่านี้นอกจากจะต้องประมวลผลในทันทีแล้วยังจะต้องนำมาใช้ให้ทันท่วงทีอีกด้วย

ข้อมูลมืดเหล่านี้มีเพิ่มมากขึ้นเรื่อยๆ ในทุกๆ องค์กร มีการประมาณไว้ว่าองค์กรทั่วไปนำข้อมูลมาประมวลวิเคราะห์เพียงแค่ 1%ของข้อมูลที่มีเท่านั้น ยิ่งเมื่อเราสามารถเก็บข้อมูลได้ในราคาที่ลดลงเรื่อยๆ องค์กรก็ยิ่งมีแนวโน้มที่จะเก็บข้อมูลไว้ก่อนแทนที่จะหาแนวทางในการนำข้อมูลมาประมวลผลและใช้ทันที ปัญหานี้ยิ่งทับถมขึ้นอีกเมื่อพิจารณาว่าข้อมูลที่เก็บเพิ่มขึ้นเรื่อยๆ นั้นเป็นข้อมูลที่อยู่ในลักษณะ unstructured มากขึ้นเรื่อยๆ ข้อมูลที่ไม่มีโครงสร้างชัดเจนเหล่านี้ไม่สามารถบริหารและจัดการได้ง่ายนักและค่อนข้างยากที่จะจำแนกออกมาเป็นกลุ่มและหมวดหมู่ และผลสืบเนื่องต่อมาคือความลำบากในการที่จะนำข้อมูลแบบไม่มีโครงสร้างชัดเจนเหล่านี้มาวิเคราะห์ประมวลผลเพื่อใช้งาน และยิ่งเมื่อขนาดของข้อมูลเหล่านี้ใหญ่ขึ้นอย่างรวดเร็วมาก ค่าใช้จ่ายในการประมวลผลและวิเคราะห์ข้อมูลเหล่านี้ทำให้องค์กรส่วนใหญ่เลือกที่จะแค่เก็บข้อมูลเหล่านี้เอาไว้ก่อน และถ้าจะมองให้ใกล้ตัวขึ้น ผมคิดว่าเราสามารถที่จะเปรียบเทียบข้อมูลมืดในองค์กรนี้ได้กับสรรพสิ่งต่างๆ (ขยะ) ที่เราเก็บไว้ในบ้านโดยไม่ใช้ ขยะหรือข้อมูลมืดเหล่านี้สามารถแบ่งออกมาได้เป็น 2 ประเภทหลัก

1.ขยะที่ไม่ได้เกิดจากการตั้งใจหามาเอง หลายครั้งที่เรามักจะได้ของที่ต่างๆมาโดยไม่ได้เป็นผู้ซื้อ บ่อยครั้งที่สิ่งของเหล่านี้ก็จะโดนนำไปเก็บไว้ในห้องเก็บของและส่วนใหญ่ก็จะโดนทิ้งไว้จนลืม และจะไม่มีประโยชน์ต่อผู้ใดจนกระทั่งได้ถูกนำไปบริจาค ขยะเหล่านี้เทียบได้กับข้อมูลที่ได้เป็นผลพลอยได้หรือผลทางอ้อมจากการทำธุรกรรมต่างๆ เช่น ในการขายของออนไลน์ ข้อมูล IP location ของผู้ซื้อ ลักษณะอุปกรณ์ที่ใช้สั่งซื้อ ลูกค้าเข้ามาจาก web link ไหน ข้อมูลเหล่านี้เป็นผลจากระบบอินเทอร์เน็ตซึ่งได้มาพร้อมกับการทำธุรกรรมซื้อขายออนไลน์ ข้อมูลเหล่านี้กลายเป็นข้อมูลมืดที่จะเพิ่มขนาดขึ้นเรื่อยๆ ถ้าไม่ได้ถูกนำมาวิเคราะห์เพื่อประโยชน์ทางธุรกิจ

2.ขยะที่เกิดจากการหามาเองเพราะคิดว่าจะได้ใช้ ขยะเหล่านี้กลายเป็นขยะเพราะว่าเรายังไม่มีเวลาใช้บ้าง ใช้ไม่ทันบ้าง ลืมใช้บ้าง ลืมกินบ้าง พอนึกขึ้นมาได้ก็ของเหล่านี้ก็หมดประโยชน์เสียแล้ว เช่น บางทีเราเห็นสินค้าบริโภคลดราคา เราก็เลยซื้อมามากกว่าที่จะบริโภคได้ภายในเวลาที่เหมาะสม สินค้าเหล่านี้ถ้าไม่ได้บริโภคภายในเวลาที่เหมาะสมก็จะกลายเป็นของเสียและถ้าไม่ได้จัดการให้ถูกต้องก็อาจจะกลายเป็นมลภาวะได้อีกด้วย ชยะเหล่านี้เทียบได้กับข้อมูลที่หามาได้โดยตรงแต่ไม่ได้ทำการประมวลใช้ อาจจะเนื่องจากยังไม่พร้อมหรือจากการที่จำเป็นต้องเก็บตามข้อกำกับต่างๆ แต่ไม่ได้มีการวางแผนที่จะนำมาประมวลใช้ ตัวอย่างเช่น ข้อมูลความคิดเห็นของลูกค้าที่เก็บไว้จำนวนมากแต่ไม่มีเครื่องมือที่จะนำมาวิเคราะห์อย่างจริงจัง หรือข้อมูลการโต้ตอบต่างๆที่ผ่านอีเมล์ของบริษัทที่ต้องจัดเก็บไว้ แต่ไม่เคยได้ถูกนำมาวิเคราะห์ความเชื่อมโยงต่างๆ ที่อาจจะเป็นประโยชน์ต่อองค์กร

ผลเสียในด้านธุรกิจที่เกิดจากข้อมูลกลายเป็นข้อมูลมืดหรือขยะเหล่านี้ไม่ใช่สิ่งที่ควรจะมองข้าม โดยเฉพาะในปัจจุบันที่ข้อมูลมีขนาดใหญ่ขึ้นเรื่อยๆ อย่างรวดเร็ว ซึ่งหมายความว่าเราจะมีข้อมูลที่กลายไปเป็นข้อมูลมืดมากขึ้นเรื่อยๆ ข้อมูลจาก New York Times บอกว่ามากกว่า 90% ของพลังงานที่ใช้ใน Data Center มาจากการจัดเก็บข้อมูลมืดเหล่านี้ การเก็บข้อมูลเหล่านี้มีค่าใช้จ่ายไม่น้อย บล็อก Datamation ชี้ไว้ว่าภายในปี 2020 ค่าจัดเก็บข้อมูลมืดจะขึ้นไปได้ถึง 891 พันล้านดอลลาร์สหรัฐ เลยทีเดียว 

นอกจากนี้ ข้อมูลมืดยังนำความเสี่ยงมาให้องค์กรอีกไม่น้อย ในบทความต่อไปผมจะกล่าวถึงความเสี่ยง 5 ข้อต่อองค์กรที่เกิดจากข้อมูลมืด และแนวทางที่จะช่วยในการที่จะจัดการกับข้อมูลมืดเหล่านี้.

รายการอ้างอิง : 
1. https://www.kdnuggets.com/2015/11/importance-dark-data-big-data-world.html
2. https://www.kdnuggets.com/2015/01/shining-light-on-dark-data.html
3. https://www.kdnuggets.com/2016/03/rise-dark-data-how-harnessed.html
4. https://www.kdnuggets.com/solutions/fraud-detection.html
5. https://en.wikipedia.org/wiki/Operational_database
6. https://blog.syncsort.com/2017/05/big-data/4-dark-data-examples-use-cases/
7. Tracie Kambies, Paul Roma, Nitin Mittal, Sandeep Kumar Sharma, https://dupress.deloitte.com/dup-us-en/focus/tech-trends/2017/dark-data-analyzing-unstructured-data.html

280 ความเห็น

ใส่ความเห็น