شناسه خبر: ۵۷۶۵۸

هوش مصنوعی که مدل های سه بعدی تولید می کند

این هفته، OpenAI منبع باز Point-E، یک سیستم یادگیری ماشینی که یک شی 3 بعدی را با یک پیام متنی ایجاد می کند. طبق مقاله ای که در کنار کد پایه منتشر شده است، Point-E می تواند مدل های سه بعدی را در یک تا دو دقیقه روی یک واحد گرافیکی Nvidia V100 تولید کند.

به گزارش تهران بهشت، پیشرفت بعدی که دنیای هوش مصنوعی را طوفانی می کند ممکن است ژنراتورهای مدل سه بعدی باشد. این هفته، OpenAI منبع باز Point-E، یک سیستم یادگیری ماشینی که یک شی 3 بعدی را با یک پیام متنی ایجاد می کند. طبق مقاله ای که در کنار کد پایه منتشر شده است، Point-E می تواند مدل های سه بعدی را در یک تا دو دقیقه روی یک واحد گرافیکی Nvidia V100 تولید کند.

Point-E اشیاء سه بعدی را به معنای سنتی ایجاد نمی کند. در عوض، ابرهای نقطه‌ای یا مجموعه‌ای مجزا از نقاط داده در فضا تولید می‌کند که یک شکل سه‌بعدی را نشان می‌دهند - از این رو مخفف گسسته است. ("E" در Point-E مخفف "کارآمدی" است، زیرا ظاهراً سریعتر از رویکردهای تولید اشیاء سه بعدی قبلی است.) ترکیب ابرهای نقطه ای از نقطه نظر محاسباتی آسان تر است، اما آنها ریزدانه یک شی را نمی گیرند. شکل یا بافت - محدودیت کلیدی Point-E در حال حاضر.

هوش مصنوعی مدل های سه بعدی

برای دور زدن این محدودیت، تیم 3d çizim programı یک سیستم هوش مصنوعی اضافی را آموزش داد تا ابرهای نقطه ای Point-E را به مش تبدیل کند. (مش‌ها - مجموعه‌ای از رئوس، لبه‌ها و وجه‌هایی که یک شی را تعریف می‌کنند - معمولاً در مدل‌سازی و طراحی سه‌بعدی استفاده می‌شوند.) اما آنها در مقاله خاطرنشان می‌کنند که مدل گاهی اوقات می‌تواند قسمت‌های خاصی از اشیاء را از دست بدهد، و در نتیجه اشکال بلوک یا مخدوش ایجاد می‌شود.

خارج از مدل تولید مش، که به تنهایی وجود دارد، Point-E از دو مدل تشکیل شده است: یک مدل متن به تصویر و یک مدل تصویر به سه بعدی. مدل متن به تصویر، شبیه به سیستم‌های هنری مولد مانند DALL-E 2 و Stable Diffusion متعلق به OpenAI، بر روی تصاویر برچسب‌گذاری شده برای درک ارتباط بین کلمات و مفاهیم بصری آموزش داده شد. از سوی دیگر، مدل تصویر به 3 بعدی، مجموعه ای از تصاویر جفت شده با اشیاء سه بعدی را دریافت کرد تا یاد بگیرد که به طور موثر بین این دو ترجمه کند.

لینک های مرتبط:

هنگامی که یک پیام متنی به شما داده می شود - به عنوان مثال، "یک چرخ دنده قابل چاپ سه بعدی، یک چرخ دنده منفرد به قطر 3 اینچ و نیم اینچ ضخامت" - مدل متن به تصویر Point-E یک شی رندر مصنوعی تولید می کند که به تصویر به تصویر داده می شود. مدل سه بعدی، که سپس یک ابر نقطه تولید می کند.

به گفته محققان OpenAI، پس از آموزش مدل‌ها بر روی مجموعه داده‌ای از «چند میلیون» شی سه‌بعدی و ابرداده‌های مرتبط، Point-E می‌تواند ابرهای نقطه‌ای رنگی تولید کند که اغلب با درخواست‌های متنی مطابقت دارند. این کامل نیست - مدل تصویر به سه بعدی Point-E گاهی اوقات تصویر را از مدل متن به تصویر درک نمی کند و در نتیجه شکلی ایجاد می کند که با درخواست متن مطابقت ندارد. با این حال، حداقل طبق گفته تیم OpenAI، سرعت آن نسبت به پیشرفته‌تر قبلی بیشتر است.

آنها در این مقاله نوشتند: «در حالی که روش ما در این ارزیابی بدتر از تکنیک‌های پیشرفته عمل می‌کند، اما در بخش کوچکی از زمان نمونه‌ها را تولید می‌کند». این می‌تواند آن را برای کاربردهای خاص کاربردی‌تر کند یا امکان کشف شی‌های سه بعدی با کیفیت بالاتر را فراهم کند.»

برنامه ها دقیقا چیست؟

خب، محققان OpenAI اشاره می‌کنند که ابرهای نقطه‌ای Point-E را می‌توان برای ساخت اشیاء دنیای واقعی، به عنوان مثال از طریق چاپ سه‌بعدی، استفاده کرد. با مدل اضافی تبدیل مش، این سیستم می تواند - زمانی که کمی صیقلی تر شود - به جریان های کاری توسعه بازی و انیمیشن نیز راه پیدا کند.

OpenAI ممکن است آخرین شرکتی باشد که وارد عرصه تولید اشیاء سه بعدی شده است، اما - همانطور که قبلاً اشاره شد - مطمئناً اولین نیست. در اوایل سال جاری، گوگل DreamFusion را منتشر کرد، نسخه توسعه یافته Dream Fields، یک سیستم 3 بعدی مولد که این شرکت در سال 2021 از آن رونمایی کرد. برخلاف Dream Fields، DreamFusion نیازی به آموزش قبلی ندارد، به این معنی که می تواند نمایش های سه بعدی از اشیا را بدون داده های سه بعدی تولید کند.

در حالی که در حال حاضر همه نگاه‌ها به مولدهای هنر دوبعدی است، هوش مصنوعی ترکیب‌کننده مدل می‌تواند مخل بزرگ بعدی صنعت باشد. مدل های سه بعدی به طور گسترده ای در فیلم و تلویزیون، طراحی داخلی، معماری و زمینه های مختلف علمی استفاده می شود. به عنوان مثال، شرکت های معماری از آنها برای نمایش ساختمان ها و مناظر پیشنهادی استفاده می کنند، در حالی که مهندسان از مدل ها به عنوان طراحی دستگاه ها، وسایل نقلیه و سازه های جدید استفاده می کنند.

مدل‌های سه‌بعدی معمولاً مدتی طول می‌کشد، اما بین چند ساعت تا چند روز. هوش مصنوعی مانند Point-E می تواند اگر روزی پیچیدگی ها برطرف شود، آن را تغییر دهد و با انجام این کار، OpenAI به سود قابل توجهی تبدیل شود.

سوال این است که چه نوع اختلافات مالکیت معنوی ممکن است در زمان ایجاد شود. بازار بزرگی برای مدل‌های سه‌بعدی وجود دارد، با چندین بازار آنلاین از جمله CGStudio و CreativeMarket که به هنرمندان اجازه می‌دهد محتوایی را که ایجاد کرده‌اند بفروشند. اگر Point-E جلو بیفتد و مدل‌های آن به بازارها راه پیدا کنند، هنرمندان مدل ممکن است اعتراض کنند و به شواهدی اشاره کنند که هوش مصنوعی مولد مدرن به‌شدت از داده‌های آموزشی آن - مدل‌های سه بعدی موجود، در مورد Point-E - وام گرفته است. مانند DALL-E 2، Point-E به هیچ یک از هنرمندانی که ممکن است بر نسل‌های آن تأثیر گذاشته باشند، اعتبار نمی‌دهد یا به آنها اشاره نمی‌کند.

به اعتبار خود، محققان اشاره می‌کنند که انتظار دارند نقطه E از مشکلات دیگری مانند سوگیری‌های به ارث رسیده از داده‌های آموزشی و فقدان پادمان‌ها رنج ببرد.

مدل های گردی که ممکن است برای ایجاد "اشیاء خطرناک" استفاده شوند. شاید به همین دلیل است که آنها مراقب هستند که Point-E را به عنوان یک "نقطه شروع" توصیف کنند که امیدوارند الهام بخش "کار بیشتر" در زمینه سنتز متن به سه بعدی باشد.

انتهای پیام/

هم رسانی این مطلب را به دوستان خود برسانید.
وب گردی

ارسال نظر

پربازدیدترین
آخرین اخبار