หากต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับการวิเคราะห์ Data Lake และความสำคัญสำหรับองค์กรสมัยใหม่ ซึ่ง DTA ได้สัมภาษณ์ Kitman Cheung ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยี IBM Data & AI APAC
Disruptive Tech Asean: ในช่วงปีที่ผ่านมา การวิเคราะห์ data lake มีการพัฒนาอย่างไรและแนวทางสมัยใหม่นี้แตกต่างจากแนวทางแบบเดิมอย่างไร ?
คุณKitman:
Data Lake และ Hadoop
ความรู้และข้อมูลเชิงลึกเป็นสิ่งที่สำคัญและไม่ใช่ความลับในการที่จะได้เปรียบเหนือคู่แข่ง Data lake คือฐานข้อมูลที่ถูกสร้างขึ้นจากความต้องการข้อมูลเชิงลึกขององค์กรที่มีเพิ่มขึ้นอย่างต่อเนื่อง แนวคิดแบบเดิมคือการจัดเก็บข้อมูลดิบในที่เดียวเพื่อตอบสนองความต้องการข้อมูลของทั้งองค์กร การทำแบบเดิมในช่วงแรกของ Data lake มีความคล้ายกับ Hadoop ด้วยระบบการประมวณผลแบบกระจายและระบบการบันทึกข้อมูลลงไฟล์ในครั้งเดียว โดย Hadoop เป็นเทคโนโลยีที่น่าสนใจในการสร้าง Data lake ขององค์กร โดยเฉพาะในช่วงกลางทศวรรษ 2000 ตั้งแต่นั้นมาเทคโนโลยีได้ก้าวเข้ามามีบทบาทและ Data lake ยังคงพัฒนาและ
นำเทคโนโลยีใหม่ ๆ มาใช้เพื่อให้สอดคล้องกับความต้องการของธุรกิจ การใช้ Data lake ในช่วงแรกนั้น มีการใช้ Hadoop ซึ่งมีความยืดหยุ่น เพื่อรองรับข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง, ความยืดหยุ่นของ schema-on-read ซึ่งเราได้เรียนรู้ตั้งแต่นั้นมาว่าความยืดหยุ่นโดยไม่มีหลักการนั้น มีแนวโน้มที่จะสร้างข้อมูลจำนวนมากที่ไม่ค่อยมีการนำมาใช้และแทบจะไม่เกิดประโยชน์ในการดำเนินธุรกิจขององค์กร ในขณะที่ Hadoop เป็นแพลตฟอร์มที่สามารถปรับขนาดได้และต้นทุนต่ำ สามารถรองรับข้อมูลได้อย่างที่ต้องการ ซึ่งการจัดการคลัสเตอร์ Hadoop และการวิเคราะห์โปรแกรมโดยใช้ Hadoop ได้รับการพิสูจน์แล้วว่าเป็นเรื่องที่ยาก รูปแบบ MapReduce เหมาะสมกับงานที่มีข้อมูลขนาดใหญ่และผู้ใช้ต้องการค้นหาข้อมูลได้อย่างรวดเร็ว เพื่อค้นหาข้อมูลในเชิงลึกใหม่ๆ Hadoop เริ่มต้นจากการเป็นมาแทนที่คลังข้อมูลของทั้งองค์กร แต่ในที่สุดก็เข้ามาเพิ่มแทน
Spark และ Object Storage
เพื่อเพิ่มความเร็วในการวิเคราะห์สำหรับ data lake แล้ว open-source community ได้มาพร้อมกับ Spark เพื่อทำหน้าที่เป็น framework ในการคำนวณในหน่วยความจำ สามารถประมวลผลข้อมูลได้เร็วขึ้น และมีความเชื่อมต่อในการตอบสนองต่อข้อมูล นอกจากนี้ Spark ยังเคยได้รับการออกแบบให้ทำงานแบบโปรแกรมเดียวร่วมกับ Hadoop ถึงตอนนี้ Spark ได้เข้ามาแทนที่ MapReduce สำหรับการใช้งานที่มีข้อมูลขนาดใหญ่มากๆ ในช่วงไม่กี่ปีที่ผ่านมา Spark และ Cloud Object Storage ได้กลายเป็นรากฐานของ Data Lake ที่แยกประเภทของการประมวลผลและการจัดเก็บข้อมูล โดยให้การประมวลผลที่เร็วขึ้นด้วย Spark และพื้นที่เก็บข้อมูลราคาต่ำลง (และเข้าถึงได้ง่ายขึ้น) ด้วย Object Storage (เช่น Ceph, S3)
ความล้ำสมัย: DataOps, Data Virtualisation, Containers …
ในทุกวันนี้ data lake ได้มุ่งเน้นไปที่ด้านไอทีของธุรกิจโดยการแก้ไขปัญหาต่างๆ เช่นความสามารถในการปรับขนาดของการประมวณผลและการจัดเก็บพื้นที่ข้อมูลในราคาถูก เพื่อผลักดันให้เกิดมูลค่าทางธุรกิจ นวัตกรรมของ data lake ได้เริ่มมุ่งเน้นไปที่การปรับให้สอดคล้องกับวิธีการและเกิดผลลัพธ์ทางธุรกิจ ความคิดที่ว่าบริษัทสามารถรับค่าโดยการย้ายข้อมูลไปยังที่เก็บเดียว ทำให้เกิดแนวคิดเกี่ยวกับแพลตฟอร์มข้อมูลที่มีความยืดหยุ่นซึ่ง ผู้ส่งมีข้อมูลที่เชื่อถือได้และให้ข้อมูลเชิงลึกแก่องค์กรในเวลาที่รวดเร็วขึ้น สิ่งนี้ก่อให้เกิดงาน Buzz แบบใหม่ -“ DataOps” คือเป็นระบบอัตโนมัติที่มีวิธีการมุ่งเน้นไปที่การส่งมอบข้อมูลที่ดีขึ้น รวดเร็วขึ้น ข้อมูลและแพลตฟอร์มของAI รุ่นใหม่ ต้องได้รับการรองรับมากกว่าข้อกำหนดด้านไอที ต้องได้รับการออกแบบมาเพื่อสนับสนุนบุคลากรและกระบวนการต่าง ๆ เพื่อให้ผลลัพธ์ทางธุรกิจที่จับต้องได้ โดยในด้านอุตสาหกรรม เราเริ่มตระหนักว่าการจัดการข้อมูล metadata มีความสำคัญพอ ๆ กับการจัดการข้อมูล คุณจะไม่ได้มูลค่าทางธุรกิจเพิ่มขึ้นจากการย้ายข้อมูลทั้งหมดไปไว้จัดเก็บในที่เก็บราคาถูกผ่าน ETL ในความเป็นจริงแล้วแนวโน้มล่าสุดมุ่งไปที่การสร้างแพลตฟอร์มที่คล่องตัวมากขึ้นโดยใช้ Data Catalog เพื่อปรับปรุง “ความสามารถในการค้นหา” และคุณภาพของข้อมูล แทนการย้ายข้อมูลโดยไม่จำเป็น แต่จะใช้ประโยชน์จาก data virtualisation เพื่อสร้างดาต้าเลค”เสมือนจริง” ซึ่งข้อมูลที่จัดเก็บในที่เก็บจะแตกต่างกัน จะปรากฏเป็นแหล่งข้อมูลแบบเดี่ยว ซึ่งหมายความว่านักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์สามารถทำงานกับไอเดียใหม่ ๆ ได้โดยไม่ต้องรองานจาก new ETL และ night ETL batch เพื่อให้เสร็จสมบูรณ์ การย้ายข้อมูลเพื่อเหตุผลด้านการปฏิบัติงานเท่านั้น (เช่นข้อกำหนดด้านประสิทธิภาพหรือความปลอดภัย) ในที่สุดเราสามารถลงทุนกับ docker container พร้อมกับ Spark เพื่อสร้างเฟรมเวิร์กสำหรับการประมวลผลอันทรงพลังที่สามารถรองรับ multi-tenancy ในคลัสเตอร์การประมวณผล
Disruptive Tech Asean: เหตุใดวงการธุรกิจจึงควรเลือกใช้ data lake แทน Data Warehouse? ตัวเลือกใดจะเป็นทางเลือกดีกว่าสำหรับวงการธุรกิจ?
คุณ Kitman: ผมคิดว่าปัญหานั้นอาจจะมีความซับซ้อนเล็กน้อย ซึ่งไม่เกี่ยวกับการเลือก Data Lake กับ Data Warehouse ผมคิดว่า Data Lake เป็นคำที่ใช้กันอย่างมากมายซึ่งมีความหมายหลากหลายกันไปในแต่กลุ่มผู้ใช้ที่แตกต่างกัน ถึงเวลาแล้วที่ควรคิดเกี่ยวกับแพลตฟอร์มข้อมูลและแพลตฟอร์ม AI ที่ครอบคลุมเทคโนโลยีที่หลากหลายเพื่อสร้างเครื่องมือที่ดีที่สุดในการทำงาน สำหรับการเขียนโปรแกรม, ชุดข้อมูลเชิงโครงสร้างเชิงสัมพันธ์,data
warehouse ยังคงเป็นตัวเลือกที่ดีที่สุดสำหรับการวิเคราะห์และรายงานผลการดำเนินงาน สำหรับข้อมูลกึ่งโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง ,object storage, NoSQL stores เช่น MongoDb จึงอาจเป็นทางเลือกที่ดีกว่า ซึ่งในการสร้างสรรค์นวัตกรรมใหม่ ๆ เราจำเป็นต้องเปลี่ยนหัวข้อการพิจารณาจากวิธีการจัดเก็บข้อมูลอย่างไร ไปสู่การทำให้ข้อมูลสามารถใช้งานและเข้าถึงได้ง่ายขึ้น รูปแบบข้อมูลใหม่ๆจำเป็นต้องเริ่มต้นจากการจัดการรวบรวม metadata ในที่เก็บข้อมูลจากที่ต่างๆ ควรมีการเข้าถึงข้อมูลที่ราบรื่น ไม่ว่าข้อมูลนั้นจะถูกจัดเก็บอย่างไร หรือเก็บที่ใด แพลตฟอร์มควรใช้ระบบอัตโนมัติและเทคโนโลยี AI เพื่อเพิ่มพูนความรู้ให้กับพนักงานในทุกการทำงานด้านข้อมูล สุดท้ายนี้จะต้องสร้างบนหลักการที่ยืดหยุ่นและเปิดกว้างซึ่งจะเป็นการเปิดโอกาสให้มีเทคโนโลยีใหม่ ๆ ในอนาคตเกิดขึ้น
Disruptive Tech Asean: ธุรกิจต่าง ๆ จะเลี่ยงปัญหาที่ซ่อนอยู่ที่เกี่ยวข้องกับการวิเคราะห์ data lake ได้อย่างไร เพื่อให้ได้รับประโยชน์สูงสุดจากข้อมูล
คุณKitman: มุ่งเน้นไปที่การส่งข้อมูลที่เชื่อถือได้ให้กับองค์กร สิ่งสำคัญคือต้องรักษาสาระสำคัญของการดูแลข้อมูล หากมีใครบอกคุณว่าเทคโนโลยีใดหรือ open-source projectใด จะแก้ปัญหาของคุณได้ทั้งหมด นั่นอาจจะเป็นความคิดที่ไม่ถูกต้องนัก การเพิ่มมูลค่าให้กับธุรกิจไม่ควรเป็นประเด็นถกเถียงกัน ว่าเทคโนโลยีใดมีประสิทธิภาพดีที่สุด
Disruptive Tech Asean: คุณสามารถแชร์วิธีการที่โซลูชั่นการวิเคราะห์ช่วยให้ธุรกิจได้ประโยชน์สูงสุดจาก data lake ได้อย่างไร
คุณ Kitman: IBM Cloud Pak for Data (CPD) เป็นแพลตฟอร์มข้อมูลและแพลตฟอร์ม AI ที่ครอบคลุมซึ่งจะช่วยให้ลูกค้าของเราปรับปรุง data lake ที่มีอยู่ให้ทันสมัย สร้างบนแพลตฟอร์ม OpenShift โดยใช้ประโยชน์จาก leverages containers เพื่อให้บริการข้อมูลและเรียนรู้การทำงานของเครื่องจักรแบบเต็มรูปแบบ ที่สามารถทำงานบนโครงสร้างพื้นฐานใดก็ได้ การทำความเข้าใจว่าองค์กรส่วนใหญ่พยายามในการค้นหาและเข้าถึงข้อมูล, CPD ถูกสร้างขึ้นจากบัญชีรายชื่อข้อมูลขององค์กรที่จัดการ metadata ทั้งองค์กร แม้ว่าข้อมูล / ML services จะถูกนำมารวมเข้าด้วยกัน แต่ผู้ใช้สามารถควบคุมได้เองทั้งหมดว่าจะใช้บริการและจากแหล่งข้อมูลใด เรายังได้ร่วมมือกับพันธมิตรทางธุรกิจเช่น MongoDB และ EnterpriseDB เพื่อให้บริการเทคโนโลยีภายในแพลตฟอร์ม ท้ายนี้ CPD ได้รับการออกแบบมาเพื่อรวมเข้าไอทีที่มีอยู่เดิม / ข้อมูลในวงกว้าง โดยการรวบรวมและจัดการข้อมูลถูกจัดเก็บไว้ในคลังข้อมูลขององค์กรหลายแห่งและการใช้งาน Hadoop
Archive
- เมษายน 2022(1)
- มีนาคม 2022(39)
- กุมภาพันธ์ 2022(58)
- มกราคม 2022(56)
- ธันวาคม 2021(43)
- พฤศจิกายน 2021(61)
- ตุลาคม 2021(72)
- กันยายน 2021(65)
- สิงหาคม 2021(76)
- กรกฎาคม 2021(75)
- มิถุนายน 2021(83)
- พฤษภาคม 2021(61)
- เมษายน 2021(66)
- มีนาคม 2021(41)
- กุมภาพันธ์ 2021(44)
- มกราคม 2021(21)
- ธันวาคม 2020(13)
- พฤศจิกายน 2020(14)
- กันยายน 2020(1)
- สิงหาคม 2020(1)
- กรกฎาคม 2020(3)