เขียนโดย: Isha Salian นักเขียนของทีมสื่อสารองค์กรของ NVIDIA
คาดเข็มขัดนิรภัยของคุณเพื่อเตรียมพร้อมกับงานวิจัยของ NVIDIA ที่กำลังปรับปรุงเครื่องมือการเรียนรู้เชิงลึกใหม่ที่สร้างโมเดลวัตถุ 3 มิติจากภาพ 2 มิติมาตรฐานและสามารถทำให้รถยนต์ที่เป็นสัญลักษณ์ของอัศวินคอมพิวเตอร์อย่างเช่น KITT ที่ขับเคลื่อนด้วย AI มีชีวิตขึ้นมาได้ใน NVIDIA Omniverse
พัฒนาโดย NVIDIA AI Research Lab ในโตรอนโต ซึ่งแอปพลิเคชั่น GANverse3D ขยายภาพแบนให้เป็นโมเดล 3 มิติที่สมจริง ซึ่งสามารถมองเห็นและควบคุมได้ในสภาพแวดล้อมเสมือนจริง โดยความสามารถนี้จะช่วยให้สถาปนิก, ผู้สร้าง, นักพัฒนาเกมและนักออกแบบสามารถเพิ่มวัตถุใหม่ ๆ ให้กับภาพจำลองได้อย่างง่ายดายโดยไม่จำเป็นต้องมีความเชี่ยวชาญในการสร้างแบบจำลอง 3 มิติหรือใช้งบประมาณจำนวนมากเพื่อใช้ในการเรนเดอร์
ตัวอย่างเช่น ภาพถ่ายรถเพียงภาพเดียวอาจกลายเป็นโมเดล 3 มิติที่สามารถขับไปรอบ ๆ ฉากเสมือนจริง, ทั้งไฟหน้า, ไฟท้ายและไฟกะพริบที่เหมือนจริง
ในการสร้างชุดข้อมูลสำหรับการฝึกอบรมนักวิจัยได้ใช้เครือข่ายผู้ต่อต้านที่ก่อกำเนิดหรือ GAN เพื่อสังเคราะห์ภาพที่แสดงภาพวัตถุเดียวกันจากหลายมุมมอง เช่น ช่างภาพที่เดินไปรอบ ๆ ยานพาหนะที่จอดอยู่โดยถ่ายภาพจากมุมต่างๆ ถูกเสียบเข้ากับเฟรมเวิร์กการเรนเดอร์สำหรับกราฟิกผกผัน, กระบวนการอนุมานแบบจำลองตาข่าย 3 มิติจากภาพ 2 มิติ
เมื่อได้รับการฝึกฝนเกี่ยวกับภาพหลายมุมมอง GANverse3D ต้องการเพียงภาพ 2 มิติภาพเดียวในการทำนายแบบจำลองตาข่าย 3 มิติ ซึ่งโมเดลนี้สามารถใช้กับเครื่องแสดงภาพระบบประสาท 3 มิติที่ให้นักพัฒนาควบคุมเพื่อปรับแต่งวัตถุและสลับพื้นหลัง
เมื่อนำเข้าเป็นส่วนขยายในแพลตฟอร์ม NVIDIA Omniverse และทำงานบน NVIDIA RTX GPUs GANverse3D สามารถใช้เพื่อสร้างภาพ 2 มิติให้เป็น 3 มิติได้ เช่น KITT ซึ่งเป็นรถต่อสู้ผู้ก่ออาชญากรรมอันเป็นที่ชื่นชอบจากทีวีซีรีย์เรื่อง อัศวินคอมพิวเตอร์ในปี 1980
รุ่นก่อนหน้าสำหรับกราฟิกผกผันได้ใช้รูปทรง 3 มิติเป็นข้อมูลการฝึกอบรม
โดยที่ไม่ได้ความช่วยเหลือจากเนื้อหา 3 มิติ “เราเปลี่ยนโมเดล GAN ให้เป็นเครื่องสร้างข้อมูลที่มีประสิทธิภาพมาก ดังนั้นเราจึงสามารถสร้างวัตถุ 3 มิติจากภาพ 2 มิติบนเว็บได้” Wenzheng Chen นักวิจัยจาก NVIDIA และหัวหน้าผู้เขียนโครงการกล่าว .
“เนื่องจากเราได้รับการฝึกฝนเกี่ยวกับภาพจริงแทนที่จะเป็นไปป์ไลน์ทั่วไปซึ่งอาศัยข้อมูลสังเคราะห์โมเดล ดังนั้น AI จึงตอบสนองต่อแอปพลิเคชันในโลกแห่งความเป็นจริงได้ดีกว่า” Jun Gao นักวิจัยจาก NVIDIA ผู้เขียนโครงการกล่าว
งานวิจัยที่อยู่เบื้องหลัง GANverse3D จะถูกนำเสนอในการประชุม 2 ครั้งที่กำลังจะมีขึ้น ได้แก่ การประชุมนานาชาติเรื่องการเป็นตัวแทนการเรียนรู้ในเดือนพฤษภาคมและการประชุมเกี่ยวกับวิสัยทัศน์คอมพิวเตอร์และการจดจำรูปแบบในเดือนมิถุนายน
จาก Flat Tire ไปจนถึง Racing KITT
ผู้สร้างเกม, สถาปัตยกรรมและการออกแบบอาศัยสภาพแวดล้อมเสมือนจริงเช่น แพลตฟอร์มการจำลอง NVIDIA Omniverse และการทำงานร่วมกันเพื่อทดสอบแนวคิดใหม่ ๆ และแสดงภาพต้นแบบก่อนที่จะสร้างผลิตภัณฑ์ขั้นสุดท้าย ด้วย Omniverse Connectors ซึ่งนักพัฒนาสามารถใช้แอพพลิเคชั่น 3 มิติที่ต้องการใน Omniverse เพื่อจำลองโลกเสมือนจริงที่ซับซ้อนด้วยการติดตามเรย์แบบเรียลไทม์
แต่ไม่ใช่ว่าผู้สร้างทุกคนจะมีเวลาและทรัพยากรในการสร้างแบบจำลอง 3 มิติของวัตถุทุกชิ้นที่พวกเขาร่าง โดยค่าใช้จ่ายในการจับภาพหลายมุมมองที่จำเป็นในการแสดงมูลค่ารถยนต์ของโชว์รูมหรืออาคารตามท้องถนนนั้นสามารถยับยั้งได้
นี่คือที่ที่แอปพลิเคชัน GANverse3D ที่ผ่านการฝึกอบรมสามารถใช้เพื่อแปลงภาพมาตรฐานของรถยนต์, อาคารหรือแม้แต่ม้าให้เป็นรูป 3 มิติที่สามารถปรับแต่งและเคลื่อนไหวได้ใน Omniverse
ในการสร้าง KITT ขึ้นใหม่ นักวิจัยเพียงแค่ป้อนโมเดลที่ได้รับการฝึกฝนมาเป็นภาพของรถโดยให้ GANverse3D ทำนายตาข่ายพื้นผิว 3 มิติที่สอดคล้องกันรวมถึงส่วนต่าง ๆ ของรถเช่น ล้อและไฟหน้า จากนั้นพวกเขาใช้ NVIDIA Omniverse Kit และเครื่องมือ NVIDIA PhysX เพื่อแปลงพื้นผิวที่คาดการณ์ไว้เป็นวัสดุคุณภาพสูงซึ่งทำให้ KITT มีรูปลักษณ์และความรู้สึกที่สมจริงยิ่งขึ้นและวางไว้ในลำดับการขับขี่แบบไดนามิก
“Omniverse ช่วยให้นักวิจัยสามารถนำงานวิจัยที่น่าตื่นเต้นและล้ำสมัยไปยังผู้สร้างและผู้ใช้ปลายทางได้โดยตรง” Jean-Francois Lafleche วิศวกรการเรียนรู้เชิงลึกของ NVIDIA กล่าว “การนำเสนอ GANverse3D เป็นส่วนเสริมใน Omniverse จะช่วยให้ศิลปินสร้างโลกเสมือนจริงที่สมบูรณ์ยิ่งขึ้นสำหรับการพัฒนาเกม, การวางผังเมืองหรือแม้แต่การฝึกอบรมโมเดล machine learning ใหม่ ๆ ”
GAN เพิ่มพลังให้ Dimensional Shift
เนื่องจากชุดข้อมูลในโลกแห่งความเป็นจริงที่จับภาพวัตถุเดียวกันจากมุมที่ต่างกันนั้นหายากเครื่องมือ AI ส่วนใหญ่ที่แปลงภาพจาก 2D เป็น 3D จึงได้รับการฝึกฝนโดยใช้ชุดข้อมูลสังเคราะห์ 3 มิติเช่น ShapeNet
เพื่อให้ได้ภาพหลายมุมมองจากข้อมูลจริงเช่น ภาพของรถยนต์ที่เผยแพร่ต่อสาธารณะบนเว็บโดยนักวิจัยของ NVIDIA จึงหันมาใช้โมเดล GAN แทนโดยจัดการกับเลเยอร์เครือข่ายประสาทเทียมเพื่อเปลี่ยนเป็นเครื่องกำเนิดข้อมูล
ทีมงานพบว่าการเปิดสี่ชั้นแรกของเครือข่ายประสาทเทียมและการแช่แข็งอีก 12 ชั้นที่เหลือทำให้ GAN แสดงภาพของวัตถุเดียวกันจากมุมมองที่แตกต่างกัน
การทำให้สี่ชั้นแรกถูกแช่แข็งและตัวแปร 12 ชั้นอื่น ๆ ทำให้เครือข่ายประสาทเทียมสร้างภาพที่แตกต่างจากมุมมองเดียวกัน ด้วยการกำหนดมุมมองมาตรฐานด้วยตนเองด้วยยานพาหนะที่แสดงในระดับความสูงและระยะห่างของกล้องที่เฉพาะเจาะจง นักวิจัยสามารถสร้างชุดข้อมูลหลายมุมมองจากภาพ 2 มิติแต่ละภาพได้อย่างรวดเร็ว
Archive
- เมษายน 2022(1)
- มีนาคม 2022(39)
- กุมภาพันธ์ 2022(58)
- มกราคม 2022(56)
- ธันวาคม 2021(43)
- พฤศจิกายน 2021(61)
- ตุลาคม 2021(72)
- กันยายน 2021(65)
- สิงหาคม 2021(76)
- กรกฎาคม 2021(75)
- มิถุนายน 2021(83)
- พฤษภาคม 2021(61)
- เมษายน 2021(66)
- มีนาคม 2021(41)
- กุมภาพันธ์ 2021(44)
- มกราคม 2021(21)
- ธันวาคม 2020(13)
- พฤศจิกายน 2020(14)
- กันยายน 2020(1)
- สิงหาคม 2020(1)
- กรกฎาคม 2020(3)