วิศวกรข้อมูล (Data Engineer) : อาชีพขาดแคลน รายได้ดี ต้นธารแห่งโลกยุคดิจิทัล

ผู้ช่วยศาสตราจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์
สาขาวิชาวิทยาการประกันภัยและการบริหารความเสี่ยง
ผู้อำนวยการหลักสูตร Ph.D. และ M.Sc. (Business Analytics and Data Science)
อาจารย์ประจำสาขาวิชา วิทยาการประกันภัยและการบริหารความเสี่ยง
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์

เรื่องการพัฒนาประเทศต้องใช้ข้อมูลที่ถูกต้องและแม่นยำนั้น เป็นสิ่งที่พระบาทสมเด็จพระบรมชนกาธิเบศร มหาภูมิพลอดุลยเดชมหาราช บรมนาถบพิตร ทรงตระหนักและทรงให้ความสำคัญยิ่ง หลายครั้งทรงละเอียดอ่อนและพิถีพิถันมาก เช่น การเสด็จกรมแผนที่ทหารเป็นการส่วนพระองค์เพื่อไปทรงชี้แนะให้กรมแผนที่ทหารแก้แผนที่ประเทศไทยที่ทรงใช้อยู่เสมอให้ถูกต้องด้วยพระองค์เองหลังจากการเสด็จพระราชดำเนินด้วยพระองค์เองหรือการทอดพระเนตรจากการประทับบนเฮลิคอปเตอร์ทำให้ทรงทราบว่าแผนที่มีความผิดพลาดหรือเปลี่ยนแปลงไปอันเกิดจากธรรมชาติ เช่น ลำน้ำ อาจมีการเปลี่ยนทิศทาง เป็นต้น ทรงเข้าใจความสำคัญของข้อมูลในการพัฒนาประเทศเป็นอย่างดี ถึงกับทรงมีพระราชปรารภกับองคมนตรีในรัชกาลที่ 9 ว่า ฉันครองราชย์สองปีแรกไม่มีผลงานอะไรเพราะไม่เข้าใจว่าราษฎรต้องการอะไร 

เมื่อสองสามปีก่อนธนาคารโลกและธนาคารพัฒนาแห่งเอเชียจะให้รัฐบาลลาวกู้เงิน ได้ให้เงื่อนไขการกู้เงินว่าให้ทำตาม ในหลวง ร. 9 โดยให้พัฒนาระบบข้อมูลและสถิติเพื่อการพัฒนาประเทศลาว ตามในหลวงรัชกาลที่ 9 ให้ทำสำมะโนประชากรและให้พัฒนาการเรียนการสอนสถิติในลาวให้ดีให้ได้ ถึงจะปล่อยเงินกู้ให้!!!! หากพิเคราะห์ให้ดีจะเห็นว่า ในหลวง รัชกาลที่ 9 ทรงเข้าใจความสำคัญของข้อมูลในการพัฒนาประเทศอย่างลึกซึ้ง จนแม้กระทั่งองค์การระหว่างประเทศก็ดำเนินตามรอยเบื้องพระยุคลบาทในการพัฒนาประเทศโดยให้ใช้ข้อมูลเป็นหลักฐานสำคัญในการตัดสินใจและการพัฒนา 

ประเทศไทยกำลังจะก้าวเข้าสู่ Thailand 4.0 แต่ปัญหาใหญ่สุดคือเราก็ยังมีปัญหาด้านข้อมูล คนไทยไม่มีวัฒนธรรมการจัดเก็บและบันทึกข้อมูลแบบจีน ซึ่งเป็นชาติที่จดบันทึกและเก็บข้อมูลจนเป็นนิสัยมากกว่าคนไทย คนไทยชอบพงศาวดารกระซิบและนินทาเล่าลือบอกต่อ การเก็บข้อมูลของไทยไม่ว่าจะภาครัฐหรือเอกชนก็ค่อนข้างกระท่อนกระแท่นเต็มที เอาเข้าจริงคือไม่มีข้อมูลเพียงพอหรือไม่มีเลยด้วยซ้ำ และเมื่อไม่มีข้อมูลหรือบางครั้งข้อมูลไม่ถูกต้อง ก็จะหวงแหนข้อมูลกอดไว้แน่นกับตัว กลัวใครจะเอาข้อมูลไปขุดแล้วเจอแผลเจอตอของตัวเอง การแบ่งปันข้อมูลจึงไม่เกิด การนำเอาข้อมูลไปวิเคราะห์และนำไปใช้จึงไม่เกิด 

ในสมัยก่อน ข้อมูลเกิดจากการบันทึกโดยมนุษย์ แต่ปัญหาคือ ข้อมูลมักจะมีเจ้าของแต่ไม่มีผู้ดูแล ข้อมูลจึงมีความผิดพลาดคลาดเคลื่อน รัฐบาลบางประเทศถึงกับต้องออกกฎหมายนิรโทษกรรมข้อมูล เพื่อให้หน่วยราชการยอมเปิดเผยข้อมูล ที่เรียกว่า Bad data is better than no data. ข้อมูลเลวดีกว่าไม่มีข้อมูล แต่ไม่ยกเว้นกรณีความผิดจากการทุจริตให้ 

โลกสมัยใหม่ ทำให้การจัดเก็บและการดูแลรักษาข้อมูลสามารถทำได้ง่ายขึ้นมาก พระเอกฮีโร่สำคัญคือ วิศวกรข้อมูล (Data engineer)นี่แหละครับ 

ทำไมอาชีพวิศวกรข้อมูล ถึงจำเป็น ได้ค่าตัวดี แพงมาก และขาดแคลนมาก มากขนาดที่ในประเทศไทยขณะนี้มีบางบริษัทที่รับทำงานวางโครงสร้างพื้นฐานข้อมูล (Data Infrastructure) เช่น ข้อมูลใหญ่ (Big data) กระแสการไหลต่อเนื่องของข้อมูล (Data streaming) เส้นทางการไหลของข้อมูล (Data Pipeline) และทะเลสาบข้อมูล (Data lake) ระบบคำนวณก้อนเมฆและกระจาย (Cloud and distributed computing) ถึงกับประกาศงดรับงานเป็นการชั่วคราว เพราะขาดแคลนวิศวกรข้อมูลมากจนมากไม่อาจจะรับงานใด ๆ ได้อีกแล้ว ทำงานให้ไม่ทัน และทุกหน่วยงานเอกชนประสบปัญหาเช่นนี้หมด 

ไม่ต้องพูดถึงภาคราชการที่จำเป็นต้องใช้งานพวกนี้มาก เพราะภาคราชการต้องวางโครงสร้างพื้นฐานข้อมูลระดับชาติ (National Data Infrastructure) เพื่อการพัฒนาประเทศ เพราะถึงอย่างไรภาคราชการก็เป็นผู้ถือข้อมูลใหญ่มากที่สุดของประเทศอย่างแน่นอน และภาคส่วนอื่นยังต้องมาอาศัยภาคราชการด้วย แต่อาชีพนี้ ตำแหน่งงานนี้ยังไม่มีในภาคราชการ และถึงมีก็คงหาคนมาทำได้ยากและไม่อาจจะรักษาไว้ได้

วิศวกรข้อมูล ทำงานอะไร คำตอบคือ ทำหน้าที่สร้างและดูแลโครงสร้างพื้นฐานข้อมูล ซึ่งแยกย่อยออกเป็น หนึ่ง การได้มาและการไหลเข้าของข้อมูล สอง การจัดเก็บและการดูแลคุณภาพข้อมูล ตลอดจน สามการจัดเตรียมข้อมูลให้ผู้อื่นนำไปใช้

เปรียบเทียบง่าย ๆ ว่าในโลกกายภาพในรอบ 50 ปีที่ผ่านมา ประเทศไทยต้องมีโครงสร้างพื้นฐานในการพัฒนาประเทศ อย่างแรกคือ ถนนหนทาง อย่างสองคือ อ่างเก็บน้ำและระบบประปา อย่างที่สามคือ เขื่อน โรงไฟฟ้า และสายส่ง อย่างที่สี่คือ การสื่อสาร เช่น โทรศัพท์ โทรศัพท์มือถือ คลื่น และอินเทอร์เน็ต

ในโลกดิจิทัลก็จำเป็นต้องมีโครงสร้างพื้นฐานเรียกว่าโครงสร้างพื้นฐานข้อมูล ซึ่งต้องมีการได้มาและการไหลเข้าของข้อมูล โลกปัจจุบันไม่ต้องง้อคนมากในการได้มาซึ่งข้อมูล เรามีอุปกรณ์ที่ทำให้ได้มาซึ่งข้อมูลมากเหลือเกิน เช่น 

scanner ที่เราต้อง scan ตัวบาร์โค้ดเวลาซื้อสินค้าในห้างสรรพสินค้า 
เครื่องสแกนลายนิ้วมือและบันทึกเวลาเข้าออกในการทำงาน รักษาความปลอดภัยได้ด้วย บันทึกเวลาเข้างานได้ด้วย
เรามีกล้องวงจรปิด บันทึกเหตุการณ์ต่าง ๆ ตามถนนแต่มักจะเสียเสมอเมื่อเกิดอาชญากรรม 
เรามี sensor และ biosensor ที่ติดไว้กับอุปกรณ์ทางการแพทย์เพื่อบันทึกข้อมูลทางการแพทย์ เช่น คลื่นไฟฟ้าหัวใจ ความอิ่มตัวของออกซิเจนในเลือด 
เราท่องอินเทอร์เน็ต เกิด log file มากมาย และเก็บข้อมูลเราไว้ด้วย 
เราวัดความเร็วของน้ำที่ไหลในคลองหรือแม่น้ำได้ด้วย sensor เช่นกัน 
โลกของอินเทอร์เน็ตแห่งสรรพสิ่ง (Internet of Things: IoTs) ทำให้อุปกรณ์ทุกอย่างเป็นที่มาของการไหลเข้าของข้อมูล ต่ออินเทอร์เน็ตไว้ 
ในร้านอาหารอาจจะติดตั้งกล้องวีดิโอดูว่าลูกค้ากินอาหารอร่อยและมีความสุขหรือไม่จากสีหน้าท่าทาง กินหมดจานไหม โดยไม่ต้องไปถามความพึงพอใจในการใช้บริการร้านอาหารอีกต่อไป ไม่ต้องถาม ดูด้วยกล้องก็รู้ได้ 
เรามี Smart Car หรือแม้แต่ Self-driving car ที่ใช้ computer vision ให้มองเห็นรถคันอื่น ๆ และขับเองได้ คือปริมาณข้อมูลมหาศาลและหลากหลาย

ในหน่วยงานก็มีระบบวางแผนทรัพยากรองค์การ (Enterprise resource planning: ERP) ที่ช่วยเชื่อมโยงข้อมูลจากทุกแผนกงานมารวมกันให้นำไปใช้ได้ดีมากขึ้น 

การควบคุมดูแลติดตั้งระบบเหล่านี้เพื่อให้ได้มาซึ่งข้อมูล ต่อท่อให้ข้อมูลไหลเข้ามาเป็นงานของวิศวกรข้อมูล 

อย่างที่สอง คราวนี้พอข้อมูลเข้ามาก็ต้องออกแบบสถาปัตยกรรมข้อมูลให้ดีเพื่อเก็บรักษาข้อมูลและตรวจสอบคุณภาพข้อมูลว่าถูกต้องหรือครบถ้วนหรือไม่ อย่างแรกต้องออกแบบให้ดี จะออกแบบคลังข้อมูล (Data warehouse) หรือทะเลสาบข้อมูล (Data lake) ซึ่งอย่างแรกใช้กับข้อมูลแบบเดิมมีโครงสร้าง มักเป็นข้อมูลที่เป็นตารางตัวเลข เป็นข้อมูลแบบ relational database ที่สัมพันธ์กันแบบเชื่อมโยง อย่างหลังเป็นการออกแบบซึ่งต้องออกแบบให้ดีไม่เช่นนั้นจะกลายเป็นโกดังรกจนเละ ใช้กับข้อมูล unstructured หรือข้อมูลไม่มีโครงสร้าง เช่น ภาพ วีดิทัศน์ สองมิติและสามมิติ มัลติมีเดีย ข้อมูลข้อความ ข้อมูลเครือข่ายสังคม ข้อมูลคลื่น เป็นต้น ขณะเดียวกันก็ควรต้องเขียนโปรแกรมเพื่อพัฒนาระบบซอฟท์แวร์สำหรับการตรวจสอบคุณภาพข้อมูลและส่งผลย้อนกลับให้ไปที่ต้นทางเพื่อแก้ไขคุณภาพข้อมูลหรือทำให้บันทึกข้อมูลให้ครบถ้วนให้ได้ 

อย่างที่สาม วิศวกรข้อมูลต้องทำหน้าที่จัดการข้อมูล การจัดการข้อมูลใหญ่ เชื่อมโยงข้อมูล และทำให้ข้อมูลมี API หรือ Web Service หรือแม้แต่ mobile application software เพื่อทำให้ข้อมูลสามารถนำไปใช้โดยผู้อื่น ไม่ว่าจะเป็น นักวิทยาการข้อมูล (Data scientist) นักวิเคราะห์ธุรกิจ (Business Analyst) วิศวกรปัญญาประดิษฐ์ (Artificial intelligence engineer) นักวาดภาพนิทัศน์ข้อมูล (Data Visualizer) หรือผู้ใช้งานอื่น ๆ ในหน่วยงาน ที่ต้องนำข้อมูลไปใช้งานต่อ หรือนำไปวิเคราะห์ต่อ หรือนำไปสร้างนวัตกรรมข้อมูล (Data innovation) 

หน้าที่ของวิศวกรข้อมูล จึงเป็นผู้วางรากฐานโครงสร้างพื้นฐานข้อมูล วางท่อให้ข้อมูลไหลเข้า เก็บรวบรวมและตรวจสอบคุณภาพ จัดกระทำให้ข้อมูลเอาไปใช้งานได้ และส่งท่อออกไปยังผู้ใช้งาน เป็นงานของวิศวกรในโลกดิจิทัลที่ดูแลโครงสร้างพื้นฐานของข้อมูล เป็นงานของนายช่างผู้จะวางรากฐานในการพัฒนาโลกดิจิทัล 

คนที่จะทำหน้าที่วิศวกรข้อมูลต้องมีความรู้อะไรบ้างเป็นอย่างน้อย 

1. ต้องเขียนโปรแกรมได้ดีมาก คล่อง และมีประสิทธิภาพรวดเร็ว อาจจะจำเป็นต้องเขียนโปรแกรมเพื่อปรับตั้งค่า จูนค่าพารามิเตอร์สำหรับอุปกรณ์ที่เป็นทางไหลเข้าของข้อมูล เขียนโปรแกรมเพื่อปรับตั้งค่าระบบสถาปัตยกรรมข้อมูลใหม่ เขียนโปรแกรมเพื่อสร้าง API ให้อำนวยความสะดวกในการนำข้อมูลไปใช้

2. ต้องสามารถจัดการข้อมูลใหญ่ (Managing Big Data) ได้ จัดการข้อมูลใหญ่ที่มีความหลากหลาย (Variety) เช่นมีข้อมูลไร้โครงสร้างหลายรูปแบบ เช่น ภาพ เสียง ข้อความ คลื่น สื่อสังคม เป็นต้น มีขนาดใหญ่ (Big Volume) ปริมาณมากมหาศาล เช่นข้อมูลภาพถ่ายดาวเทียม มีความเร็วสูง (Velocity) วิ่งเข้ามาเป็นเวลาจริง (Real time) ต่อเนื่องไม่มีหยุด เช่น ข้อมูลธุรกรรมทางการเงินที่เปิดให้บริการตลอด 24 ชั่วโมง ต้องตัดการเรื่องการจัดเก็บข้อมูล การอัพโหลด แจกจ่าย และการประมวลผลข้อมูลใหญ่ รวมไปถึงสถาปัตยกรรมข้อมูลใหญ่ เช่น HDFS; HBase; KV stores ฐานข้อมูลเอกสาร ฐานข้อมูลกราฟ 

3. ต้องมีความสามารถในการพัฒนาซอฟท์แวร์สำหรับข้อมูลใหญ่ (Software applications development for big data)ต้องเข้าใจกระบวนการพัฒนาซอฟท์แวร์แบบอาไจล์ (Agile development for Big data) สำหรับข้อมูลใหญ่ ต้องเข้าใจเฟรมเวิร์คและเทคโนโลยีการพัฒนาซอฟท์แวร์ที่ใช้ในการพัฒนาซอฟแวร์เพื่อเป็นอินเตอร์เฟซอัจฉริยะ (Intelligent Interface) ทั้งสำหรับคอมพิวเตอร์ส่วนบุคคลและโทรศัพท์เคลื่อนที่ โดยบูรณาการการทำงานกับระบบปัญญาประดิษฐ์หรือการเรียนรู้ด้วยเครื่องจักร ต้องพัฒนา software ด้วยสถาปัตยกรรมแบบ service oriented และสถาปัตยกรรมแลมบ์ดา (Lambda Architecture) เพื่อจัดการกับข้อมูลจำนวนมหาศาลซึ่งเกิดจากระบบข้อมูลขนาดใหญ่ได้
ที่มาของรูป: https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/
4. ต้องมีความสามารถในการออกแบบและพัฒนาระบบสถาปัตยกรรมข้อมูลขนาดใหญ่ (Big Data Architecture) อันได้แก่ การติดตั้งและการบริหารระบบข้อมูลใหญ่ การจัดการและการเข้าถึงและเชื่อมต่อ แหล่งข้อมูลใหญ่อันหลากหลายอันได้แก่ การขูดเว็บ (web scraping) เซ็นเซอร์ ชีวเซ็นเซอร์ (Biosensor) กล้องดิจทัล เครื่องบันทึกเสียง สแกนเนอร์ อินเทอร์เน็ตแห่งสรรพสิ่ง อินเตอร์เฟซผู้ใช้งานอัจฉริยะ ระบบวางแผนทรัพยากรองค์การ เพื่อรองรับความท้าทายในด้านความหลากหลายของข้อมูลใหญ่ (Big data variety) การสตรีมมิ่งข้อมูล เพื่อรองรับความท้าทายด้านความเร็วของข้อมูลใหญ่ (Big data velocity) และนำไปสู่การจัดเก็บแบบกระจายและก้อนเมฆ (Cloud and distributed computing) เพื่อรองรับความท้าทายด้านขนาดใหญ่ของข้อมูลใหญ่ (Big Volume) และการส่งต่อข้อมูลไปสู่ API การวิเคราะห์ และ software application เพื่อให้ผู้ใช้งานอันได้แก่ Business Analyst, Data Scientist, Data Visualizer หรือ Business User เอาข้อมูลไปใช้งานต่อได้อย่างสะดวกรวดเร็ว 

5. ต้องมีความสามารถในการแปลงและการจัดกระทำข้อมูลใหญ่ (Big data manipulation and transformation) เวลาที่มีข้อมูลใหญ่เข้ามา วิศวกรข้อมูลต้องสามารถตรวจสอบคุณภาพข้อมูลใหญ่ว่าข้อมูลมีความถูกต้องหรือมีค่าสูญหายหรือไม่ ครบด้วนดีหรือไม่ ข้อมูลที่จะได้รับไม่มีทางถูกต้องดีงามสมบูรณ์ร้อยเปอร์เซ็นต์ จึงต้องมีการเตรียมและการดำเนินการก่อนการประมวลผลข้อมูลใหญ่ เช่น การจัดการข้อมูลสูญหายและการแทนค่าข้อมูลสูญหาย การตรวจสอบความไม่สอดคล้อง ความผิดปกติ ความผิดพลาด และค่าสุดโต่ง ของข้อมูล การบรรณาธิกรและการแก้ไขข้อมูล การสกัด การโหลด และการแปลงข้อมูลใหญ่ เพื่อให้มีคุณภาพดีพอที่จะส่งต่อข้อมูลให้ผู้ใช้ต่อไปได้ 

6. ต้องมีความสามารถในการออกแบบ พัฒนา ดูแล บำรุงรักษา และจัดการ คลังข้อมูลใหญ่และฐานข้อมูลแบบ NoSQL (Big Data warehousing and Advanced NoSQL Database Management) อันได้แก่ คลังข้อมูลสำหรับข้อมูลใหญ่ ทะเลสาบข้อมูล การดูแลความปลอดภัยของข้อมูลใหญ่ โครงสร้างข้อมูลสำหรับ NoSQL ซึ่งจำเป็นมากที่จะต้องเสถียรและขยายสเกลต่อไปได้ (Scalability) 

จะเห็นว่างานของวิศวกรข้อมูล เป็นงานวางรากฐานโครงสร้างข้อมูล และเป็นงานที่ต้องใช้ความรู้ทางเทคนิคด้านฐานข้อมูล การเชื่อมต่อและเน็ตเวิร์ค การรักษาความปลอดภัยของสารสนเทศ และต้องมีความเข้าใจในการใช้และการวิเคราะห์ข้อมูลด้วย 

เมื่อเปรียบเทียบกับนักวิทยาการข้อมูล (Data Scientist) แล้ว วิศวกรข้อมูล เป็นต้นน้ำ (Upstream of data process) ของกระบวนการข้อมูล ในขณะที่นักวิทยาการข้อมูล เป็นกลางน้ำของกระบวนการข้อมูล ในขณะที่ นักวิเคราะห์ธุรกิจ (Business Analyst) และนักวาดภาพนิทัศน์จากข้อมูล ค่อนข้างมาทางปลายน้ำของกระบวนการข้อมูล

ตารางข้างล่างนี้แสดงการเปรียบเทียบความเหมือนความต่างระหว่างสองวิชาชีพในโลกดิจิทัลที่กำลังขาดแคลนอย่างยิ่งในประเทศไทยคือ วิศวกรข้อมูลและนักวิทยาการข้อมูล ดังนี้

ผู้ที่จะเรียนด้านวิศวกรรมข้อมูล (Data Engineering) ได้ดีต้องมีความสามารถในการเขียนโปรแกรมได้ดี มีความชอบและสนใจอุปกรณ์ทันสมัยต่าง ๆ ที่เกี่ยวข้องกับข้อมูล ไม่ใช่แค่ระดับเป็นผู้ใช้ แต่ต้องติดตั้งเชื่อมต่อและเอาข้อมูลเข้ามาในระบบคอมพิวเตอร์ได้ มีความรู้ความเข้าใจเรื่องข้อมูลและฐานข้อมูล สามารถพัฒนาระบบได้ดี คิดเป็นระบบ และมีความเข้าใจธุรกิจด้วยจึงจะทำงานได้ดี ที่สำคัญต้องมีใจบริการหรือ service mind ด้วย จึงจะทำงานวิศวกรข้อมูลอย่างมีความสุข ไม่อึดอัด 

สำหรับผู้ที่สนใจเข้ามาเริ่มต้นเป็นวิศวกรข้อมูล และอยากเรียนรู้ในด้านวิศวกรรมข้อมูลอย่างลึกซึ้ง หลักสูตรวิทยาศาสตร์มหาบัณฑิต (การวิเคราะห์ธุรกิจและวิทยาการข้อมูล) คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์ กำลังเปิดรับสมัครนักศึกษาระดับปริญญาโท ทั้งภาคปกติ (จันทร์-ศุกร์) และภาคพิเศษ (เสาร์-อาทิตย์) ตั้งแต่บัดนี้ – 28 กันยายน 2562 โดยเปิดรับสมัครห้าสาขาวิชา คือ

1. วิศวกรรมข้อมูล (Data Engineering: DE) 
2. ปัญญาประดิษฐ์และการเรียนรู้ด้วยเครื่องจักร (Artificial Intelligence and Machine Learning: AIML) 
3. ภาพนิทัศน์ข้อมูลและเทคโนโลยีมัลติมีเดีย (Data Visualization and Multimedia Technology: DVMT) 
4. ปัญญาและการวิเคราะห์ธุรกิจ (Business Analytics and Intelligence: BA&I) และ
5. วิทยาการข้อมูล (Data Science: DS)
รายละเอียดการสมัครเพิ่มเติมที่ http://bit.do/eWX6x