Covering Disruptive Technology Powering Business in The Digital Age

image
บทสัมภาษณ์ของ IBM เกี่ยวกับ การวิเคราะห์ Data Lake ที่ทันสมัย
image
กันยายน 8, 2020 บล็อก

 

หากต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับการวิเคราะห์ Data Lake และความสำคัญสำหรับองค์กรสมัยใหม่ ซึ่ง DTA ได้สัมภาษณ์ Kitman Cheung ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยี IBM Data & AI APAC

Disruptive Tech Asean: ในช่วงปีที่ผ่านมา การวิเคราะห์ data lake มีการพัฒนาอย่างไรและแนวทางสมัยใหม่นี้แตกต่างจากแนวทางแบบเดิมอย่างไร ?

คุณKitman:

Data Lake และ Hadoop

ความรู้และข้อมูลเชิงลึกเป็นสิ่งที่สำคัญและไม่ใช่ความลับในการที่จะได้เปรียบเหนือคู่แข่ง Data lake คือฐานข้อมูลที่ถูกสร้างขึ้นจากความต้องการข้อมูลเชิงลึกขององค์กรที่มีเพิ่มขึ้นอย่างต่อเนื่อง  แนวคิดแบบเดิมคือการจัดเก็บข้อมูลดิบในที่เดียวเพื่อตอบสนองความต้องการข้อมูลของทั้งองค์กร  การทำแบบเดิมในช่วงแรกของ Data lake มีความคล้ายกับ Hadoop  ด้วยระบบการประมวณผลแบบกระจายและระบบการบันทึกข้อมูลลงไฟล์ในครั้งเดียว  โดย Hadoop เป็นเทคโนโลยีที่น่าสนใจในการสร้าง Data lake ขององค์กร โดยเฉพาะในช่วงกลางทศวรรษ 2000  ตั้งแต่นั้นมาเทคโนโลยีได้ก้าวเข้ามามีบทบาทและ Data lake ยังคงพัฒนาและ

นำเทคโนโลยีใหม่ ๆ มาใช้เพื่อให้สอดคล้องกับความต้องการของธุรกิจ  การใช้ Data lake ในช่วงแรกนั้น มีการใช้ Hadoop ซึ่งมีความยืดหยุ่น เพื่อรองรับข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง, ความยืดหยุ่นของ schema-on-read ซึ่งเราได้เรียนรู้ตั้งแต่นั้นมาว่าความยืดหยุ่นโดยไม่มีหลักการนั้น มีแนวโน้มที่จะสร้างข้อมูลจำนวนมากที่ไม่ค่อยมีการนำมาใช้และแทบจะไม่เกิดประโยชน์ในการดำเนินธุรกิจขององค์กร  ในขณะที่ Hadoop เป็นแพลตฟอร์มที่สามารถปรับขนาดได้และต้นทุนต่ำ สามารถรองรับข้อมูลได้อย่างที่ต้องการ ซึ่งการจัดการคลัสเตอร์ Hadoop และการวิเคราะห์โปรแกรมโดยใช้ Hadoop ได้รับการพิสูจน์แล้วว่าเป็นเรื่องที่ยาก  รูปแบบ MapReduce เหมาะสมกับงานที่มีข้อมูลขนาดใหญ่และผู้ใช้ต้องการค้นหาข้อมูลได้อย่างรวดเร็ว เพื่อค้นหาข้อมูลในเชิงลึกใหม่ๆ  Hadoop เริ่มต้นจากการเป็นมาแทนที่คลังข้อมูลของทั้งองค์กร แต่ในที่สุดก็เข้ามาเพิ่มแทน

 

Spark และ Object Storage

เพื่อเพิ่มความเร็วในการวิเคราะห์สำหรับ data lake แล้ว open-source community ได้มาพร้อมกับ Spark  เพื่อทำหน้าที่เป็น framework ในการคำนวณในหน่วยความจำ สามารถประมวลผลข้อมูลได้เร็วขึ้น และมีความเชื่อมต่อในการตอบสนองต่อข้อมูล  นอกจากนี้ Spark ยังเคยได้รับการออกแบบให้ทำงานแบบโปรแกรมเดียวร่วมกับ Hadoop  ถึงตอนนี้ Spark ได้เข้ามาแทนที่ MapReduce สำหรับการใช้งานที่มีข้อมูลขนาดใหญ่มากๆ  ในช่วงไม่กี่ปีที่ผ่านมา Spark และ Cloud Object Storage ได้กลายเป็นรากฐานของ Data Lake ที่แยกประเภทของการประมวลผลและการจัดเก็บข้อมูล  โดยให้การประมวลผลที่เร็วขึ้นด้วย Spark และพื้นที่เก็บข้อมูลราคาต่ำลง (และเข้าถึงได้ง่ายขึ้น) ด้วย Object Storage (เช่น Ceph, S3)

 

ความล้ำสมัย: DataOps, Data Virtualisation, Containers …

ในทุกวันนี้ data lake ได้มุ่งเน้นไปที่ด้านไอทีของธุรกิจโดยการแก้ไขปัญหาต่างๆ เช่นความสามารถในการปรับขนาดของการประมวณผลและการจัดเก็บพื้นที่ข้อมูลในราคาถูก  เพื่อผลักดันให้เกิดมูลค่าทางธุรกิจ นวัตกรรมของ data lake ได้เริ่มมุ่งเน้นไปที่การปรับให้สอดคล้องกับวิธีการและเกิดผลลัพธ์ทางธุรกิจ ความคิดที่ว่าบริษัทสามารถรับค่าโดยการย้ายข้อมูลไปยังที่เก็บเดียว ทำให้เกิดแนวคิดเกี่ยวกับแพลตฟอร์มข้อมูลที่มีความยืดหยุ่นซึ่ง ผู้ส่งมีข้อมูลที่เชื่อถือได้และให้ข้อมูลเชิงลึกแก่องค์กรในเวลาที่รวดเร็วขึ้น  สิ่งนี้ก่อให้เกิดงาน Buzz แบบใหม่ -“ DataOps”  คือเป็นระบบอัตโนมัติที่มีวิธีการมุ่งเน้นไปที่การส่งมอบข้อมูลที่ดีขึ้น รวดเร็วขึ้น ข้อมูลและแพลตฟอร์มของAI รุ่นใหม่ ต้องได้รับการรองรับมากกว่าข้อกำหนดด้านไอที  ต้องได้รับการออกแบบมาเพื่อสนับสนุนบุคลากรและกระบวนการต่าง ๆ เพื่อให้ผลลัพธ์ทางธุรกิจที่จับต้องได้ โดยในด้านอุตสาหกรรม เราเริ่มตระหนักว่าการจัดการข้อมูล metadata มีความสำคัญพอ ๆ กับการจัดการข้อมูล  คุณจะไม่ได้มูลค่าทางธุรกิจเพิ่มขึ้นจากการย้ายข้อมูลทั้งหมดไปไว้จัดเก็บในที่เก็บราคาถูกผ่าน ETL  ในความเป็นจริงแล้วแนวโน้มล่าสุดมุ่งไปที่การสร้างแพลตฟอร์มที่คล่องตัวมากขึ้นโดยใช้ Data Catalog เพื่อปรับปรุง “ความสามารถในการค้นหา” และคุณภาพของข้อมูล  แทนการย้ายข้อมูลโดยไม่จำเป็น แต่จะใช้ประโยชน์จาก data virtualisation เพื่อสร้างดาต้าเลค”เสมือนจริง” ซึ่งข้อมูลที่จัดเก็บในที่เก็บจะแตกต่างกัน จะปรากฏเป็นแหล่งข้อมูลแบบเดี่ยว  ซึ่งหมายความว่านักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์สามารถทำงานกับไอเดียใหม่ ๆ ได้โดยไม่ต้องรองานจาก new ETL และ night ETL batch เพื่อให้เสร็จสมบูรณ์  การย้ายข้อมูลเพื่อเหตุผลด้านการปฏิบัติงานเท่านั้น (เช่นข้อกำหนดด้านประสิทธิภาพหรือความปลอดภัย)  ในที่สุดเราสามารถลงทุนกับ docker container พร้อมกับ Spark เพื่อสร้างเฟรมเวิร์กสำหรับการประมวลผลอันทรงพลังที่สามารถรองรับ multi-tenancy ในคลัสเตอร์การประมวณผล

 

Disruptive Tech Asean: เหตุใดวงการธุรกิจจึงควรเลือกใช้ data lake แทน Data Warehouse?  ตัวเลือกใดจะเป็นทางเลือกดีกว่าสำหรับวงการธุรกิจ?

คุณ Kitman: ผมคิดว่าปัญหานั้นอาจจะมีความซับซ้อนเล็กน้อย  ซึ่งไม่เกี่ยวกับการเลือก Data Lake กับ Data Warehouse  ผมคิดว่า Data Lake เป็นคำที่ใช้กันอย่างมากมายซึ่งมีความหมายหลากหลายกันไปในแต่กลุ่มผู้ใช้ที่แตกต่างกัน ถึงเวลาแล้วที่ควรคิดเกี่ยวกับแพลตฟอร์มข้อมูลและแพลตฟอร์ม AI ที่ครอบคลุมเทคโนโลยีที่หลากหลายเพื่อสร้างเครื่องมือที่ดีที่สุดในการทำงาน  สำหรับการเขียนโปรแกรม, ชุดข้อมูลเชิงโครงสร้างเชิงสัมพันธ์,data

warehouse ยังคงเป็นตัวเลือกที่ดีที่สุดสำหรับการวิเคราะห์และรายงานผลการดำเนินงาน  สำหรับข้อมูลกึ่งโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง ,object storage, NoSQL stores เช่น MongoDb จึงอาจเป็นทางเลือกที่ดีกว่า ซึ่งในการสร้างสรรค์นวัตกรรมใหม่ ๆ เราจำเป็นต้องเปลี่ยนหัวข้อการพิจารณาจากวิธีการจัดเก็บข้อมูลอย่างไร ไปสู่การทำให้ข้อมูลสามารถใช้งานและเข้าถึงได้ง่ายขึ้น รูปแบบข้อมูลใหม่ๆจำเป็นต้องเริ่มต้นจากการจัดการรวบรวม metadata ในที่เก็บข้อมูลจากที่ต่างๆ  ควรมีการเข้าถึงข้อมูลที่ราบรื่น ไม่ว่าข้อมูลนั้นจะถูกจัดเก็บอย่างไร หรือเก็บที่ใด  แพลตฟอร์มควรใช้ระบบอัตโนมัติและเทคโนโลยี AI เพื่อเพิ่มพูนความรู้ให้กับพนักงานในทุกการทำงานด้านข้อมูล  สุดท้ายนี้จะต้องสร้างบนหลักการที่ยืดหยุ่นและเปิดกว้างซึ่งจะเป็นการเปิดโอกาสให้มีเทคโนโลยีใหม่ ๆ ในอนาคตเกิดขึ้น

Disruptive Tech Asean: ธุรกิจต่าง ๆ จะเลี่ยงปัญหาที่ซ่อนอยู่ที่เกี่ยวข้องกับการวิเคราะห์ data lake ได้อย่างไร เพื่อให้ได้รับประโยชน์สูงสุดจากข้อมูล

คุณKitman: มุ่งเน้นไปที่การส่งข้อมูลที่เชื่อถือได้ให้กับองค์กร  สิ่งสำคัญคือต้องรักษาสาระสำคัญของการดูแลข้อมูล  หากมีใครบอกคุณว่าเทคโนโลยีใดหรือ open-source projectใด จะแก้ปัญหาของคุณได้ทั้งหมด นั่นอาจจะเป็นความคิดที่ไม่ถูกต้องนัก การเพิ่มมูลค่าให้กับธุรกิจไม่ควรเป็นประเด็นถกเถียงกัน ว่าเทคโนโลยีใดมีประสิทธิภาพดีที่สุด

 

Disruptive Tech Asean: คุณสามารถแชร์วิธีการที่โซลูชั่นการวิเคราะห์ช่วยให้ธุรกิจได้ประโยชน์สูงสุดจาก data lake ได้อย่างไร

คุณ Kitman: IBM Cloud Pak for Data (CPD) เป็นแพลตฟอร์มข้อมูลและแพลตฟอร์ม AI ที่ครอบคลุมซึ่งจะช่วยให้ลูกค้าของเราปรับปรุง data lake ที่มีอยู่ให้ทันสมัย  สร้างบนแพลตฟอร์ม OpenShift โดยใช้ประโยชน์จาก leverages containers เพื่อให้บริการข้อมูลและเรียนรู้การทำงานของเครื่องจักรแบบเต็มรูปแบบ ที่สามารถทำงานบนโครงสร้างพื้นฐานใดก็ได้  การทำความเข้าใจว่าองค์กรส่วนใหญ่พยายามในการค้นหาและเข้าถึงข้อมูล, CPD ถูกสร้างขึ้นจากบัญชีรายชื่อข้อมูลขององค์กรที่จัดการ metadata ทั้งองค์กร  แม้ว่าข้อมูล / ML services จะถูกนำมารวมเข้าด้วยกัน แต่ผู้ใช้สามารถควบคุมได้เองทั้งหมดว่าจะใช้บริการและจากแหล่งข้อมูลใด  เรายังได้ร่วมมือกับพันธมิตรทางธุรกิจเช่น MongoDB และ EnterpriseDB เพื่อให้บริการเทคโนโลยีภายในแพลตฟอร์ม  ท้ายนี้ CPD ได้รับการออกแบบมาเพื่อรวมเข้าไอทีที่มีอยู่เดิม / ข้อมูลในวงกว้าง โดยการรวบรวมและจัดการข้อมูลถูกจัดเก็บไว้ในคลังข้อมูลขององค์กรหลายแห่งและการใช้งาน Hadoop

 

(0)(0)