Data Sciences ควรเรียนอะไรบ้าง ที่จะทำให้ทำงานได้จริง?

อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์
สาขา Business Analytics and Intelligence และวิทยาการประกันภัยและการบริหารความเสี่ยง
คณะสถิติประยุกต์
ผู้อำนวยการศูนย์คลังปัญญาและสารสนเทศ สถาบันบัณฑิตพัฒนบริหารศาสตร์

ก่อนอื่นต้องเข้าใจก่อนว่าวิทยาการข้อมูล (data science) เป็นวิชาที่ว่าด้วยการจัดการ จัดเก็บ รวบรวม ตรวจสอบ วิเคราะห์ และนำเสนอผลของการวิเคราะห์ข้อมูลเพื่อนำไปสู่ความรู้ที่สามารถนำไปใช้งานได้จริง (Actionable knowledge) และในปัจจุบันเป็นที่ต้องการของทั้งโลก และในประเทศไทยก็ขาดแคลนอย่างยิ่ง คนเรียนสาขานี้ ทำงานสาขานี้เป็นที่ต้องการของตลาดแรงงานอย่างมากมาย และเป็นที่แย่งตัวกันในหมู่ head hunter กันอย่างมาก

ทำไม data science ถึงเติบโต คำตอบคือ Big Data เติบโตอย่างก้าวกระโดด

ลักษณะของข้อมูลขนาดใหญ่ (Big Data) ในโลกปัจจุบัน มีความท้าทายในเรื่องของปริมาณ (Volume) ความเร็ว (Velocity) และ ความหลากหลาย (Variety) การเข้ามาของ Internet of Things และ Censor ต่างๆ ตลอดจน Social media ทำให้เกิดข้อมูลปริมาณมหาศาลหากนำไปใช้ให้ดีจะเป็นประโยชน์อย่างยิ่ง

https://www.slideshare.net/infoDiagram/big-data-cloudappsvisualiconpptinfodiagramtoolbox

การเรียน Data Sciences จึงไม่เป็นเพียงการเรียน สถิติ หรือ วิทยาการคอมพิวเตอร์ หรือ เนื้อหาในศาสตร์ใดศาสตร์หนึ่งล้วนๆ โดยขาดการบูรณาการร่วมกัน และต้องนำมาใช้ร่วมกันให้เกิดรสชาติที่กลมกล่อม ไม่แตกต่างจากการทำกับข้าว ต้องมีวัตถุดิบที่ดี มีเชฟที่มีฝีมือ และมีอุปกรณ์เครื่องครัวที่เหมาะสม จึงจะทำกับข้าวออกมาได้ดี

การเรียน Data Science ก็เช่นกัน ควรมีสามองค์ประกอบที่เหมาะสมลงตัว สิ่งที่ยากสุดคือการสอนเนื้อหาในด้านต่างๆ เช่น การบริหารธุรกิจ วิศวกรรมศาสตร์ ชีววิทยา การแพทย์ ซึ่งคนเรียนต้องมีฐานมาในระดับปริญญาตรีแล้วบ้าง จึงจะนำมาบูรณาการได้ดี ไม่สามารถนำมาสอนได้ทั้งหมดในระดับปริญญาโท

ในทัศนะของผม หลักสูตร Data Science ในระดับปริญญาโท ควรมีวิชา Core คือ
1. Statistical Analysis through R programming
2. Data structure through Python programming

ทั้งภาษา R และ Python จะเป็นภาษาหลักที่ data scientist ควรทำได้ดี ส่วนสถิติและ data structure เป็นหัวใจของ Data sciences การเข้าใจ Relational Database นั้นยังจำเป็น R นั้นเป็นภาษาหลักของทางสถิติและ Python เป็นภาษาหลักของ Machine learning

ที่ต้องเรียนสองภาษาหลักนี้เพราะการรู้แต่ภาษา R อาจจะไม่เพียงพอเพราะไม่สามารถนำผลจาก analytics ไปต่อยอดเป็น web application หรือทำ production ต่อไม่ได้ ทำได้เพียง analytics ในขณะที่ Python มี package ทางสถิติน้อยและด้อยกว่า R แต่เด่นด้าน machine learning และสามารถใช้เขียนต่อเพื่อพัฒนา application หรือ web ต่างๆ ได้ นายจ้างต้องการจ้าง data scientist ที่ทำงานได้ครบวงจร หากทำได้ทั้งหมดจะทำให้การทำงานง่ายขึ้นและเชื่อมโยงกันได้ง่ายขึ้นเช่นกัน

ส่วนวิชา major นั้นควรเรียนเน้นไปที่ Unstructured data มากกว่า Structured data เพื่อรองรับอนาคต จริงอยู่ที่ unstructured data จะวิเคราะห์ได้ค่อนข้างยากกว่าและเป็นของใหม่ แต่ข้อมูลเหล่านี้นับวันจะมีมากขึ้นและมีความหลากหลายเพิ่มขึ้น ซึ่งควรเรียนไว้สำหรับรองรับอนาคตอันใกล้มากที่สุด อันได้แก่

1. Machine learning and Artificial Intelligence
เพราะทั้งการเรียนรู้ของเครื่องจักรและปัญญาประดิษฐ์จะเป็นหัวใจของ data science และเป็นฐานของทุกวิชาต่อไป

2. Managing Big Data
ทำให้บัณฑิตที่จบไปสามารถทำงานเป็น Data Engineer ได้ สิ่งที่ควรสอนคือ Cognitive schema และ การ manage unstructured data ด้วย Software ที่เป็น No SQL เช่น Hadoop หรือ Spark ทำให้ตอบสนองต่อทั้ง variety, volume และ velocity ของข้อมูลได้ดี

3. Image Analytics and Deep Learning
การวิเคราะห์รูปจะเป็นหัวใจของ DS เช่นกัน และนำไปใช้ประโยชน์ได้มาก ซึ่งขยายความไปถึง multimedia, 3D animation ด้วย ทำให้สามารถตอบสนองต่อ variety ของข้อมูลได้

4. Text analytics and natural language processing
ข้อความเป็นข้อมูลที่มีมากและต้องนำมาวิเคราะห์กันให้ถ่องแท้ โดยเฉพาะภาษาไทยที่มีอัจฉริยลักษณ์ในตัวสูงและยากมากสำหรับคอมพิวเตอร์ จะทำ chatbot ภาษาไทยนี่ปราบเซียนมากๆ ทำให้สามารถตอบสนองต่อ variety ของข้อมูลได้

5. Social Network and Social Media Analytics
ข้อมูลบน internet โทรศัพท์ และ social media มีศักยภาพมหาศาลสำหรับโลกธุรกิจในอนาคต คนเป็น data scientist ต้องทำให้เป็น ทำให้สามารถตอบสนองต่อ variety ของข้อมูลได้

6. Big Data Analytics
เนื่องจากปริมาณข้อมูลมหาศาล การเรียนรู้ในการจัดการวิเคราะห์ด้วย Parallel computing หรือ cloud computing หรือ distributed computing หรือ in-memory จำเป็นต้องมี และต้องนำผลการวิเคราะห์มารวมกันได้ เพื่อให้ tackle กับ volume ของข้อมูลได้

ส่วนวิชาเลือกได้แก่

1.Automation and real time analytics
เพราะข้อมูลขนาดใหญ่ มี velocity สูงมาก หากไม่สามารถวิเคราะห์แบบ real time ได้ จะไม่ทันกับการเปลี่ยนแปลงและการแข่งขันอันรวดเร็ว ตอบสนอง velocity ของข้อมูล

2. Voice recognition and analytics
ข้อมูลเสียงยังมีความสำคัญและช่วยในการค้นหาความรู้ที่นำไปใช้ประโยชน์ได้มากมหาศาล เช่น Computer aided telephone interview เราสามารถสั่งงานคอมพิวเตอร์ด้วยเสียงได้หากมี voice recognition ที่ดีเพียงพอ ทำให้สามารถตอบสนองต่อ variety ของข้อมูลได้

และอาจจะมีวิชาย่อยที่บูรณาการกับสาขาวิชาอื่นๆ ยกตัวอย่างเช่น

1. Health care analytics สำหรับข้อมูลด้านสาธารณสุขซึ่งมีความสำคัญยิ่งกับประเทศไทยที่กำลังเผชิญปัญหาค่าใช้จ่ายในการรักษาพยาบาลสูง ซึ่งต้องเชื่อมโยงกับระบาดวิทยา การแพทย์ และการเงินการบัญชี

2. Bioinformatics หรือ ชีวสารสนเทศศาสตร์ซึ่งเน้นข้อมูลทางชีววิทยาเช่น DNA sequencing พวก Human Genome การศึกษาความสัมพันธ์ระหว่างยีนส์และการเกิดโรค ซึ่งจะทำให้เกิดความรู้ใหม่ๆ ทางการแพทย์ ตลอดจนภาพถ่ายทางการแพทย์หรือคลื่นทางการแพทย์ เช่น คลื่นสมอง คลื่นหัวใจ ภาพถ่าย MRI เป็นต้น

3. Financial Analytics การวิเคราะห์การเงิน เช่น การพยากรณ์ราคาหรือผลตอบแทนของหลักทรัพย์ การประเมินความเสี่ยงจากการลงทุนเพื่อให้สามารถจัดพอร์ตการลงทุนได้ดี การวิเคราะห์อนุกรมเวลาทางการเงิน

4. Quantitative risk analytics เน้นการวิเคราะห์ความเสี่ยงเชิงปริมาณ การทำแบบจำลองการล้มละลายของกิจการ การทำ credit score การวิเคราะห์ความสูญเสียและการตั้งสำรอง ซึ่งมาตรฐานการบัญชีสมัยใหม่และมาตรฐานการเงินเช่น BASEL III จะถูกบังคับใช้และธนาคารพาณิชย์ทุกแห่งต้องใช้ความรู้เหล่านี้

5. Marketing Analytics สอนวิเคราะห์การตลาดเพื่อตอบโจทย์การตลาด เช่น จะแบ่งกลุ่มตลาดอย่างไร จะ target ลูกค้ากลุ่มไหน จะวางตำแหน่งทางการตลาดได้อย่างไร จะศึกษาและวัดพฤติกรรมผู้บริโภคได้อย่างไร จะเข้าใจความพึงพอใจของลูกค้าได้อย่างไร จะออกแบบผลิตภัณฑ์อย่างไรให้โดนใจลูกค้า จะวางส่วนประสมทางการตลาดอย่างไรให้ประสบความสำเร็จ

6. Statistical graphic and data visualization เป็นวิชาที่รวมศาสตร์และศิลปะเข้ามาไว้ด้วยกัน จะเล่าเรื่องอย่างไร จะ explore ความรู้ใหม่จากรูปที่สร้างจากข้อมูลได้หรือไม่ ควรออกแบบ dashboard และ กราฟอย่างไรให้สื่อสารได้แม่นยำและชัดเจน ต้องรู้เท่าทันว่าจะโกหกด้วยรูปกราฟทางสถิติได้อย่างไร เป็นต้น

และวิชา Soft Skill ที่ต้องนำไปใช้งานจริง เช่น

1. Statistical consulting, presentation, and communication เป็นประโยชน์เมื่อต้องให้คำปรึกษาแนะนำสำหรับคนทั่วไปที่ไม่มีความเข้าใจใน data science จะสื่อสารและนำเสนออย่างไรให้ชาวบ้านทั่วๆ ไปหรือคนทำงานที่ไม่ได้มีความรู้ทางเทคนิคเข้าใจได้

2. Agile development ซึ่งใช้ในการพัฒนา software แบบ cross functional team และปรับเปลี่ยนอย่างยืดหยุ่น ทำให้งานออกมาตรงกับความต้องการ ซึ่งเป็นแนวคิดใหม่ในการพัฒนา software

ถ้านักศึกษาได้เรียนเช่นนี้ น่าจะจบออกไปแล้วทำงานได้จริง เป็นที่ต้องการยิ่งของตลาดแรงงาน และมีส่วนเป็นอย่างมากในการพัฒนาประเทศไทย Thailand 4.0 Creative Economy และเศรษฐกิจดิจิทัล

385 ความเห็น

ใส่ความเห็น