Description
ทำไมต้องทำ Data Pipelines
องค์กรต่าง ๆ ในปัจจุบัน ต่างถูกขับเคลื่อนด้วยข้อมูลจำนวนมหาศาล (Data-Driven) แต่กว่า 73% ของข้อมูลในองค์กรไม่ได้ถูกวิเคราะห์เลย ซึ่งเหตุผลหลักๆ ก็คือข้อมูลไม่ได้ถูกจัดการให้เป็นระเบียบนั่นเอง นอกจากนั้นองค์กรเป็นจำนวนมากก็ยังเก็บข้อมูลที่ไร้ประโยชน์ ไม่ว่าจะเป็น Web Log, อีเมลเก่า ๆ, หรือข้อมูลลูกค้าที่ out of date และเก็บมาแล้วไม่ได้ใช้ไว้จำนวนมาก ในขณะที่ข้อมูลเพิ่มขึ้นเรื่อย ๆ หลาย ๆ อย่างก็เริ่มเข้ามาเป็นข้อจำกัด เช่น กฎหมาย PDPA เป็นต้น ทำให้การจัดการข้อมูลเข้ามามีบทบาทสำคัญมากในองค์กรยุคปัจจุบัน
เรียนรู้การสร้าง End-to-End Data Pipelines โดยใช้ Apache Airflow ตั้งแต่อ่านข้อมูล ทำความสะอาด ปรับให้อยู่ในรูปแบบที่เหมาะสม สุดท้ายคือโหลดข้อมูลเข้า Data Lake/Data Warehouse แบบอัตโนมัติ เพื่อนำไปวิเคราะห์ข้อมูล และประกอบการตัดสินใจทางธุรกิจต่อไป
เมื่อเรียนจบคอร์สนี้ คุณจะ…
- สามารถใช้เครื่องมือ Apache Airflow ในการจัดการข้อมูลได้
- ออกแบบ และพัฒนา Automated Data Pipelines เพื่อจัดการข้อมูลขนาดใหญ่ (Big Data) ได้
- ควบคุม ดูแลรักษา รวมไปถึงการหาสาเหตุ และแก้ปัญหาที่เกิดขึ้นที่ Data Pipeline ได้
- นำข้อมูลไปใช้ และต่อยอดได้อย่างมีประสิทธิภาพ โดยไม่ต้องคำนึงถึงข้อมูลที่ตกหล่น และการเข้าถึงข้อมูลของลูกค้า
คอร์สนี้เหมาะสำหรับ
- Data Engineer / Data Architect ที่ต้องการเพิ่มทักษะการออกแบบ และสร้าง Data Pipelines เพื่อจัดการข้อมูลขนาดใหญ่แบบอัตโนมัติ
- Software Engineer / Software Developer ที่สนใจสายงานด้าน Data Engineering หรือต้องทำงานเกี่ยวกับข้อมูลจำนวนมาก
- Data Scientist / Data Analyst ที่ต้องการบริหารจัดการข้อมูลเพื่อนำไปต่อยอดได้อย่างมีประสิทธิภาพ และมีพื้นฐานการเขียนโปรแกรม
- คนที่อยากเปลี่ยนสายงานมาทำงานด้าน Data Engineering
พื้นฐานที่ควรมีสำหรับคอร์สนี้
มีความรู้พื้นฐานภาษา SQL และ Python เบื้องต้น