
জটিল পরিবেশে, মানুষ কৃত্রিম বুদ্ধিমত্তার চেয়ে কথার অর্থ ভালোভাবে বুঝতে পারে, কারণ আমরা কেবল আমাদের কানই নয়, চোখও ব্যবহার করি।
উদাহরণস্বরূপ, আমরা কারো মুখ নড়তে দেখি এবং স্বজ্ঞাতভাবে বুঝতে পারি যে আমরা যে শব্দটি শুনি তা অবশ্যই সেই ব্যক্তির মুখ থেকেই আসছে।
মেটা এআই একটি নতুন এআই সংলাপ ব্যবস্থার উপর কাজ করছে, যা এআইকে কথোপকথনে যা দেখে এবং যা শোনে তার মধ্যে সূক্ষ্ম পারস্পরিক সম্পর্ক চিনতে শেখাবে।
মানুষ যেভাবে নতুন দক্ষতা অর্জন করতে শেখে, ভিজ্যুয়ালভয়েসও ঠিক একইভাবে শেখে, লেবেলবিহীন ভিডিও থেকে ভিজ্যুয়াল এবং শ্রবণ সংকেত শেখার মাধ্যমে অডিও-ভিজ্যুয়াল বক্তৃতা পৃথকীকরণ সক্ষম করে।
যন্ত্রের ক্ষেত্রে, এটি আরও ভালো উপলব্ধি তৈরি করে, অন্যদিকে মানুষের উপলব্ধি উন্নত হয়।
কল্পনা করুন যে আপনি সারা বিশ্বের সহকর্মীদের সাথে মেটাভার্সে গ্রুপ মিটিংয়ে অংশগ্রহণ করতে পারবেন, ভার্চুয়াল স্পেসের মধ্য দিয়ে যাওয়ার সময় ছোট ছোট গ্রুপ মিটিংয়ে যোগ দিতে পারবেন, যেখানে দৃশ্যের শব্দের প্রতিধ্বনি এবং সুর পরিবেশ অনুসারে সামঞ্জস্য করবে।
অর্থাৎ, এটি একই সাথে অডিও, ভিডিও এবং টেক্সট তথ্য পেতে পারে এবং এর পরিবেশগত বোঝাপড়ার মডেল আরও সমৃদ্ধ, যা ব্যবহারকারীদের "অত্যন্ত বাহ" শব্দের অভিজ্ঞতা প্রদান করে।
পোস্টের সময়: জুলাই-২০-২০২২