Covering Disruptive Technology Powering Business in The Digital Age

image
ภาพยนตร์เรื่องอัศวินคอมพิวเตอร์ได้สร้างชีวิตให้กับรถสปอร์ต KITT ด้วย AI และ NVIDIA Omniverse
image
เมษายน 20, 2021 บล็อก

 

 

เขียนโดย: Isha Salian นักเขียนของทีมสื่อสารองค์กรของ NVIDIA

คาดเข็มขัดนิรภัยของคุณเพื่อเตรียมพร้อมกับงานวิจัยของ NVIDIA ที่กำลังปรับปรุงเครื่องมือการเรียนรู้เชิงลึกใหม่ที่สร้างโมเดลวัตถุ 3 มิติจากภาพ 2 มิติมาตรฐานและสามารถทำให้รถยนต์ที่เป็นสัญลักษณ์ของอัศวินคอมพิวเตอร์อย่างเช่น KITT ที่ขับเคลื่อนด้วย AI มีชีวิตขึ้นมาได้ใน NVIDIA Omniverse

พัฒนาโดย NVIDIA AI Research Lab ในโตรอนโต ซึ่งแอปพลิเคชั่น GANverse3D ขยายภาพแบนให้เป็นโมเดล 3 มิติที่สมจริง ซึ่งสามารถมองเห็นและควบคุมได้ในสภาพแวดล้อมเสมือนจริง โดยความสามารถนี้จะช่วยให้สถาปนิก, ผู้สร้าง, นักพัฒนาเกมและนักออกแบบสามารถเพิ่มวัตถุใหม่ ๆ ให้กับภาพจำลองได้อย่างง่ายดายโดยไม่จำเป็นต้องมีความเชี่ยวชาญในการสร้างแบบจำลอง 3 มิติหรือใช้งบประมาณจำนวนมากเพื่อใช้ในการเรนเดอร์

https://disruptivetechasia.com/wp-content/uploads/GANverse3D-KITT-Comparison.png

ตัวอย่างเช่น ภาพถ่ายรถเพียงภาพเดียวอาจกลายเป็นโมเดล 3 มิติที่สามารถขับไปรอบ ๆ ฉากเสมือนจริง, ทั้งไฟหน้า, ไฟท้ายและไฟกะพริบที่เหมือนจริง

ในการสร้างชุดข้อมูลสำหรับการฝึกอบรมนักวิจัยได้ใช้เครือข่ายผู้ต่อต้านที่ก่อกำเนิดหรือ GAN เพื่อสังเคราะห์ภาพที่แสดงภาพวัตถุเดียวกันจากหลายมุมมอง เช่น ช่างภาพที่เดินไปรอบ ๆ ยานพาหนะที่จอดอยู่โดยถ่ายภาพจากมุมต่างๆ ถูกเสียบเข้ากับเฟรมเวิร์กการเรนเดอร์สำหรับกราฟิกผกผัน, กระบวนการอนุมานแบบจำลองตาข่าย 3 มิติจากภาพ 2 มิติ

เมื่อได้รับการฝึกฝนเกี่ยวกับภาพหลายมุมมอง GANverse3D ต้องการเพียงภาพ 2 มิติภาพเดียวในการทำนายแบบจำลองตาข่าย 3 มิติ ซึ่งโมเดลนี้สามารถใช้กับเครื่องแสดงภาพระบบประสาท 3 มิติที่ให้นักพัฒนาควบคุมเพื่อปรับแต่งวัตถุและสลับพื้นหลัง

เมื่อนำเข้าเป็นส่วนขยายในแพลตฟอร์ม NVIDIA Omniverse และทำงานบน NVIDIA RTX GPUs GANverse3D สามารถใช้เพื่อสร้างภาพ 2 มิติให้เป็น 3 มิติได้ เช่น KITT ซึ่งเป็นรถต่อสู้ผู้ก่ออาชญากรรมอันเป็นที่ชื่นชอบจากทีวีซีรีย์เรื่อง อัศวินคอมพิวเตอร์ในปี 1980

รุ่นก่อนหน้าสำหรับกราฟิกผกผันได้ใช้รูปทรง 3 มิติเป็นข้อมูลการฝึกอบรม

โดยที่ไม่ได้ความช่วยเหลือจากเนื้อหา 3 มิติ “เราเปลี่ยนโมเดล GAN ให้เป็นเครื่องสร้างข้อมูลที่มีประสิทธิภาพมาก ดังนั้นเราจึงสามารถสร้างวัตถุ 3 มิติจากภาพ 2 มิติบนเว็บได้” Wenzheng Chen นักวิจัยจาก NVIDIA และหัวหน้าผู้เขียนโครงการกล่าว .

“เนื่องจากเราได้รับการฝึกฝนเกี่ยวกับภาพจริงแทนที่จะเป็นไปป์ไลน์ทั่วไปซึ่งอาศัยข้อมูลสังเคราะห์โมเดล ดังนั้น AI จึงตอบสนองต่อแอปพลิเคชันในโลกแห่งความเป็นจริงได้ดีกว่า” Jun Gao นักวิจัยจาก NVIDIA ผู้เขียนโครงการกล่าว

งานวิจัยที่อยู่เบื้องหลัง GANverse3D จะถูกนำเสนอในการประชุม 2 ครั้งที่กำลังจะมีขึ้น ได้แก่ การประชุมนานาชาติเรื่องการเป็นตัวแทนการเรียนรู้ในเดือนพฤษภาคมและการประชุมเกี่ยวกับวิสัยทัศน์คอมพิวเตอร์และการจดจำรูปแบบในเดือนมิถุนายน

จาก Flat Tire ไปจนถึง Racing KITT

ผู้สร้างเกม, สถาปัตยกรรมและการออกแบบอาศัยสภาพแวดล้อมเสมือนจริงเช่น แพลตฟอร์มการจำลอง NVIDIA Omniverse และการทำงานร่วมกันเพื่อทดสอบแนวคิดใหม่ ๆ และแสดงภาพต้นแบบก่อนที่จะสร้างผลิตภัณฑ์ขั้นสุดท้าย ด้วย Omniverse Connectors ซึ่งนักพัฒนาสามารถใช้แอพพลิเคชั่น 3 มิติที่ต้องการใน Omniverse เพื่อจำลองโลกเสมือนจริงที่ซับซ้อนด้วยการติดตามเรย์แบบเรียลไทม์

แต่ไม่ใช่ว่าผู้สร้างทุกคนจะมีเวลาและทรัพยากรในการสร้างแบบจำลอง 3 มิติของวัตถุทุกชิ้นที่พวกเขาร่าง โดยค่าใช้จ่ายในการจับภาพหลายมุมมองที่จำเป็นในการแสดงมูลค่ารถยนต์ของโชว์รูมหรืออาคารตามท้องถนนนั้นสามารถยับยั้งได้

นี่คือที่ที่แอปพลิเคชัน GANverse3D ที่ผ่านการฝึกอบรมสามารถใช้เพื่อแปลงภาพมาตรฐานของรถยนต์, อาคารหรือแม้แต่ม้าให้เป็นรูป 3 มิติที่สามารถปรับแต่งและเคลื่อนไหวได้ใน Omniverse

ในการสร้าง KITT ขึ้นใหม่ นักวิจัยเพียงแค่ป้อนโมเดลที่ได้รับการฝึกฝนมาเป็นภาพของรถโดยให้ GANverse3D ทำนายตาข่ายพื้นผิว 3 มิติที่สอดคล้องกันรวมถึงส่วนต่าง ๆ ของรถเช่น ล้อและไฟหน้า จากนั้นพวกเขาใช้ NVIDIA Omniverse Kit และเครื่องมือ NVIDIA PhysX เพื่อแปลงพื้นผิวที่คาดการณ์ไว้เป็นวัสดุคุณภาพสูงซึ่งทำให้ KITT มีรูปลักษณ์และความรู้สึกที่สมจริงยิ่งขึ้นและวางไว้ในลำดับการขับขี่แบบไดนามิก

“Omniverse ช่วยให้นักวิจัยสามารถนำงานวิจัยที่น่าตื่นเต้นและล้ำสมัยไปยังผู้สร้างและผู้ใช้ปลายทางได้โดยตรง” Jean-Francois Lafleche วิศวกรการเรียนรู้เชิงลึกของ NVIDIA กล่าว “การนำเสนอ GANverse3D เป็นส่วนเสริมใน Omniverse จะช่วยให้ศิลปินสร้างโลกเสมือนจริงที่สมบูรณ์ยิ่งขึ้นสำหรับการพัฒนาเกม, การวางผังเมืองหรือแม้แต่การฝึกอบรมโมเดล machine learning ใหม่ ๆ ”

GAN เพิ่มพลังให้ Dimensional Shift

เนื่องจากชุดข้อมูลในโลกแห่งความเป็นจริงที่จับภาพวัตถุเดียวกันจากมุมที่ต่างกันนั้นหายากเครื่องมือ AI ส่วนใหญ่ที่แปลงภาพจาก 2D เป็น 3D จึงได้รับการฝึกฝนโดยใช้ชุดข้อมูลสังเคราะห์ 3 มิติเช่น ShapeNet

เพื่อให้ได้ภาพหลายมุมมองจากข้อมูลจริงเช่น ภาพของรถยนต์ที่เผยแพร่ต่อสาธารณะบนเว็บโดยนักวิจัยของ NVIDIA จึงหันมาใช้โมเดล GAN แทนโดยจัดการกับเลเยอร์เครือข่ายประสาทเทียมเพื่อเปลี่ยนเป็นเครื่องกำเนิดข้อมูล

ทีมงานพบว่าการเปิดสี่ชั้นแรกของเครือข่ายประสาทเทียมและการแช่แข็งอีก 12 ชั้นที่เหลือทำให้ GAN แสดงภาพของวัตถุเดียวกันจากมุมมองที่แตกต่างกัน

การทำให้สี่ชั้นแรกถูกแช่แข็งและตัวแปร 12 ชั้นอื่น ๆ ทำให้เครือข่ายประสาทเทียมสร้างภาพที่แตกต่างจากมุมมองเดียวกัน ด้วยการกำหนดมุมมองมาตรฐานด้วยตนเองด้วยยานพาหนะที่แสดงในระดับความสูงและระยะห่างของกล้องที่เฉพาะเจาะจง นักวิจัยสามารถสร้างชุดข้อมูลหลายมุมมองจากภาพ 2 มิติแต่ละภาพได้อย่างรวดเร็ว

(0)(0)