জটিল পরিবেশে, মানুষ AI এর চেয়ে ভালোভাবে বক্তৃতার অর্থ বুঝতে পারে, কারণ আমরা কেবল আমাদের কানই নয়, আমাদের চোখও ব্যবহার করি।
উদাহরণস্বরূপ, আমরা কারও মুখ নড়তে দেখি এবং স্বজ্ঞাতভাবে জানি যে আমরা যে শব্দ শুনি তা অবশ্যই সেই ব্যক্তির কাছ থেকে আসছে।
মেটা এআই একটি নতুন এআই ডায়ালগ সিস্টেমে কাজ করছে, যেটি এআই-কে কথোপকথনে যা দেখে এবং শোনে তার মধ্যে সূক্ষ্ম পারস্পরিক সম্পর্ক চিনতে শিখতে।
ভিজ্যুয়ালভয়েস একইভাবে শেখে যেভাবে মানুষ নতুন দক্ষতা আয়ত্ত করতে শেখে, লেবেলবিহীন ভিডিওগুলি থেকে ভিজ্যুয়াল এবং শ্রুতিসংকেত শেখার মাধ্যমে অডিও-ভিজ্যুয়াল বক্তৃতা পৃথকীকরণ সক্ষম করে৷
মেশিনের জন্য, এটি আরও ভাল উপলব্ধি তৈরি করে, যখন মানুষের উপলব্ধি উন্নত হয়।
সারা বিশ্ব থেকে সহকর্মীদের সাথে মেটাভার্সে গ্রুপ মিটিংয়ে অংশগ্রহণ করতে, ভার্চুয়াল স্পেসের মধ্য দিয়ে যাওয়ার সাথে সাথে ছোট ছোট গ্রুপ মিটিংয়ে যোগদান করতে সক্ষম হওয়ার কল্পনা করুন, এই সময় দৃশ্যে শব্দ রিভারবস এবং টিমব্রেস পরিবেশ অনুসারে সামঞ্জস্য করুন।
অর্থাৎ, এটি একই সময়ে অডিও, ভিডিও এবং পাঠ্য তথ্য পেতে পারে এবং একটি সমৃদ্ধ পরিবেশগত বোঝার মডেল রয়েছে, যা ব্যবহারকারীদের "খুব বাহ" শব্দের অভিজ্ঞতা পেতে দেয়।
পোস্টের সময়: জুলাই-২০-২০২২