নীতিবিরোধী কনটেন্ট শনাক্তে কৃত্রিম বুদ্ধিমত্তা (এআই) ব্যবহারে উল্লেখযোগ্য অগ্রগতি হলেও এখনো মানুষের দক্ষতা সবচেয়ে নির্ভরযোগ্য বলে প্রমাণিত হয়েছে। বিশেষ করে জটিল বা প্রসঙ্গভিত্তিক কনটেন্ট বিশ্লেষণে মানব কনটেন্ট মডারেটররা এআইয়ের চেয়ে স্পষ্টভাবে এগিয়ে। তবে এই নির্ভুল যাচাইয়ের পেছনে রয়েছে একটি বড় চ্যালেঞ্জ—খরচ। সম্প্রতি জেফার (Zefr) নামের একটি ব্র্যান্ড সুরক্ষা প্রযুক্তি প্রতিষ্ঠানের গবেষণায় দেখা গেছে, কনটেন্ট মডারেশনে মানুষের ব্যবহার এআইয়ের তুলনায় প্রায় ৪০ গুণ বেশি ব্যয়বহুল।
২০২৫ সালের ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশনে অনুষ্ঠিতব্য কম্পিউটার ভিশন ইন অ্যাডভার্টাইজিং অ্যান্ড মার্কেটিং (সিভিএএএম) ওয়ার্কশপে গৃহীত একটি গবেষণা প্রবন্ধে এ তথ্য উঠে এসেছে।
গবেষণায় বলা হয়েছে, ব্র্যান্ড সেফটি বা নিরাপত্তা নিশ্চিত করতে এখনো মানুষের সহায়তা সবচেয়ে নির্ভরযোগ্য। তবে এই নির্ভরতার জন্য প্রচুর অর্থ খরচ করতে হয়। মেশিন লার্নিং সমাধানের চেয়ে মানব পর্যালোচনার খরচ প্রায় ৪০ গুণ বেশি।
ব্র্যান্ড সেফটি বলতে এমন এক প্রক্রিয়া বোঝানো হয়, যেখানে সহিংসতা, পর্নোগ্রাফি বা রাজনৈতিক বিতর্কের মতো অনুপযুক্ত কনটেন্টের পাশে ব্র্যান্ডের বিজ্ঞাপন দেখানো না হয়, তা নিশ্চিত করা। এটি মূলত বিজ্ঞাপনদাতার মানদণ্ড অনুসারে নির্ধারিত হয়।
গবেষকেরা বলেন, ‘বিজ্ঞাপনদাতারা নির্দিষ্ট কনটেন্ট ক্যাটাগরি এড়িয়ে চলতে চান। যেমন: সহিংসতা, প্রাপ্তবয়স্ক কনটেন্ট বা রাজনৈতিক বিতর্ক। তবে সাধারণ কনটেন্ট মডারেশন শুধু নীতিবিরুদ্ধ বিষয়বস্তু ঠেকাতেই সীমাবদ্ধ।’
এই গবেষণায় ১ হাজার ৫০০টি ভিডিও বিশ্লেষণ করা হয়। ভিডিওগুলোকে তিনটি বিভাগে ভাগ করা হয়—
১. ড্রাগ, অ্যালকোহল ও তামাক (DAT)
২. মৃত্যু, আঘাত ও সামরিক সংঘাত
৩. শিশুদের উপযোগী কনটেন্ট
এই পরীক্ষায় ছয়টি এআই মডেল ব্যবহৃত হয়েছে—জিপিটি ৪ও, জিপিটি ৪ও মিনি, জেমিনি ১.৫ ফ্ল্যাশ, জেমিনি ২.০ ফ্ল্যাশ, জেমিনি ২.০ ফ্ল্যাশ লাইট, এললামা ৩.২ –১১বি ভিশন। পাশাপাশি মানব পর্যালোচনার ফলাফলও তুলনা করা হয়।
গবেষকেরা বলেন, ‘জেমিনি’ মডেলগুলো সব মিলিয়ে সবচেয়ে ভালো করেছে এবং তাদের কমপ্যাক্ট সংস্করণগুলোও খুব বেশি পিছিয়ে নেই।’
তবে কয়েকটি জায়গায় ত্রুটি হয়েছে। যেমন—জাপানি ভাষায় ক্যাফেইন আসক্তি নিয়ে তৈরি একটি ভিডিওকে সব মডেলই ভুলভাবে মাদক সম্পর্কিত ভিডিও হিসেবে চিহ্নিত করেছে। গবেষকেরা বলেন, এটি হয়েছে ‘addiction’ শব্দের ভুল ব্যাখ্যা এবং জাপানি ভাষার প্রেক্ষাপট না বুঝতে পারার কারণে।
গবেষণায় বলা হয়েছে, ‘কমপ্যাক্ট এমএলএলএমগুলো খরচে অনেক কম হলেও এগুলোর ভুলের হার বেশি। তবে জটিল বা প্রেক্ষাপট-নির্ভর কনটেন্ট শনাক্তে এখনো মানবকর্মীই এগিয়ে রয়েছে।’
জেফারের প্রধান এআই কর্মকর্তা জন মোরা এক বিবৃতিতে বলেন, ‘জেমিনি ও জিপিটির মতো মডেলগুলো টেক্সট, অডিও এবং ভিজ্যুয়াল বিশ্লেষণে আশানুরূপ ফল দিচ্ছে এবং খরচও অনেক কম। তবে যেসব ক্ষেত্রে গভীর প্রেক্ষাপট বোঝা দরকার, সেখানে এখনো মানুষই শ্রেষ্ঠ। তাই সবচেয়ে কার্যকর ও সাশ্রয়ী পথ হলো হাইব্রিড মডেল—অর্থাৎ মানুষ ও এআইয়ের সমন্বয়।’
তথ্যসূত্র: দ্য রেজিস্টার