কৃত্রিম বুদ্ধিমত্তা সংস্থাগুলিকে অর্থপ্রদানের সামগ্রী সরবরাহ করার জন্য অভিযুক্ত সাধারণ ক্রল৷
যদি আপনি কখনও ভেবে থাকেন যে Google, Anthropic, OpenAI এবং Meta-এর মতো কৃত্রিম বুদ্ধিমত্তা সংস্থাগুলি কীভাবে তাদের প্রশিক্ষণের ডেটা নিউ ইয়র্ক টাইমস, ওয়্যারড, বা ওয়াশিংটন পোস্টের মতো পেওয়ালড প্রকাশকদের কাছ থেকে পায়, শেষ পর্যন্ত আমাদের কাছে উত্তর থাকতে পারে৷ দ্য আটলান্টিকের জন্য একটি গভীর তদন্তে, রিপোর্টার অ্যালেক্স রেইসনার প্রকাশ করেছেন যে বেশ কয়েকটি বড় কৃত্রিম বুদ্ধিমত্তা সংস্থাগুলি গোপনে কমন ক্রল ফাউন্ডেশনের সাথে সহযোগিতা করছে, একটি অলাভজনক যা গবেষণার উদ্দেশ্যে একটি বিশাল পাবলিক ইন্টারনেট সংরক্ষণাগার তৈরি করতে ইন্টারনেট ক্রল করে৷ প্রতিবেদন অনুসারে, কমন ক্রল, যার ডাটাবেস বেশ কয়েকটি পেটাবাইট বিস্তৃত, মূলত একটি ব্যাকডোর আবিষ্কার করেছে যা কৃত্রিম বুদ্ধিমত্তা সংস্থাগুলিকে তাদের মডেলগুলিকে প্রধান সংবাদ আউটলেটগুলি থেকে অর্থপ্রদানের সামগ্রীতে প্রশিক্ষণ দিতে দেয়৷
আজ প্রকাশিত একটি ব্লগ পোস্টে, কমন ক্রল স্পষ্টভাবে অভিযোগ অস্বীকার করেছে। ফাউন্ডেশনের ওয়েবসাইট বলে যে এর ডেটা অবাধে অ্যাক্সেসযোগ্য ওয়েব পৃষ্ঠাগুলি থেকে সংগ্রহ করা হয়। তবে এর প্রধান নির্বাহী, রিচার্ড স্ক্রেন্টা, দ্য আটলান্টিককে বলেছেন যে তিনি বিশ্বাস করেন যে এআই মডেলগুলির ইন্টারনেটে সমস্ত কিছুর অ্যাক্সেস থাকা উচিত। “রোবটগুলিও মানুষ,” স্ক্রেন্টা আটলান্টিককে বলেছেন।
আরও দেখুন: ক্যালিফোর্নিয়া গ্রীনলাইট AI নিরাপত্তা, ডেটা সুরক্ষা
Netflix এর নীরব AI চ্যাটবট
যেমন ChatGPT এবং Google Gemini সাংবাদিকতা শিল্পে একটি সংকট সৃষ্টি করেছে। এআই চ্যাটবট প্রকাশকদের কাছ থেকে তথ্য সংগ্রহ করে এবং সেই তথ্য সরাসরি পাঠকদের সাথে শেয়ার করে, সেই প্রকাশকদের থেকে ক্লিক ও দর্শক চুরি করে। এই ঘটনাটিকে ট্র্যাফিক অ্যাপোক্যালিপস এবং এআই আর্মাগেডন বলা হয়। (প্রকাশ: জিফ ডেভিস, ম্যাশেবলের মূল কোম্পানি, এপ্রিল মাসে OpenAI-এর বিরুদ্ধে একটি মামলা দায়ের করে, অভিযোগ করে যে এটি তার কৃত্রিম বুদ্ধিমত্তা সিস্টেমের প্রশিক্ষণ এবং অপারেশনে জিফ ডেভিসের কপিরাইট লঙ্ঘন করেছে।)
কিছু সংবাদ প্রকাশক কমন ক্রলের কার্যকলাপ সম্পর্কে জানতে পেরেছিল, এবং কেউ কেউ তাদের ওয়েবসাইটের স্ক্র্যাপার কোড যোগ করার জন্য ফান্ডের কোড ব্লক করে বলেছে। যাইহোক, এটি শুধুমাত্র ভবিষ্যতের বিষয়বস্তুকে রক্ষা করে, এমন কিছু নয় যা ইতিমধ্যে সরানো হয়েছে। Mashable Light Speed বেশ কিছু প্রকাশক তাদের আর্কাইভ থেকে তাদের বিষয়বস্তু মুছে ফেলার জন্য Common Crawl-এর সাথে যোগাযোগ করেছে। ফাউন্ডেশন বলেছে যে এটি অনুরোধগুলি মেনে চলছে, যদিও ধীরে ধীরে ডেটার পরিমাণের কারণে: একটি সংস্থা আটলান্টিকের সাথে কমন ক্রল থেকে বেশ কয়েকটি ইমেল ভাগ করেছে যে অপসারণ প্রক্রিয়া “50 শতাংশ, 70 শতাংশ এবং তারপর 80 শতাংশ” সম্পূর্ণ হয়েছে৷
যাইহোক, রেইসনার আবিষ্কার করেছেন যে এই মুছে ফেলার অনুরোধগুলির কোনোটিই পূরণ হয়নি—এবং কমন ক্রলের আর্কাইভগুলি 2016 সাল থেকে পরিবর্তিত হয়নি। স্ক্রেন্টা দ্য আটলান্টিককে বলেছেন যে আর্কাইভগুলি সংরক্ষণ করার জন্য ব্যবহৃত ফাইল ফর্ম্যাটটি “অপরিবর্তনীয় হিসাবে ডিজাইন করা হয়েছে,” যার অর্থ যোগ করার পরে বিষয়বস্তু সরানো যাবে না। যাইহোক, রেইসনার রিপোর্ট করেছেন যে সাইটের সর্বজনীন অনুসন্ধান সরঞ্জাম, সাধারণ ক্রলের সংরক্ষণাগারগুলি দেখার একমাত্র অ-প্রযুক্তিগত উপায়, নির্দিষ্ট ডোমেনের জন্য বিভ্রান্তিকর ফলাফল প্রদান করে, যা স্ক্র্যাপ এবং সংরক্ষণ করা হয়েছে তার সুযোগকে মুখোশ করে।
Mashable Common Crawl-এর কাছে পৌঁছেছে এবং দলের একজন সদস্য আমাদের Skrenta-এর ব্লগে একটি সর্বজনীন পোস্টের দিকে নির্দেশ করেছে। এতে, স্ক্রেন্টা দাবি অস্বীকার করেছে যে সংস্থাটি প্রকাশকদের বিভ্রান্ত করেছে এই বলে যে তার ওয়েব ক্রলার পেওয়াল বাইপাস করে না। তিনি আরও জোর দিয়েছিলেন যে কমন ক্রল আর্থিকভাবে স্বাধীন এবং “এআই এর নোংরা কাজ করে না।”
“আটলান্টিক কমন ক্রল ফাউন্ডেশন সম্পর্কে বেশ কিছু মিথ্যা এবং বিভ্রান্তিকর বিবৃতি দেয়, যার মধ্যে আমাদের সংস্থা আমাদের কার্যক্রম সম্পর্কে ‘প্রকাশকদের কাছে মিথ্যা বলেছে’ অভিযোগ সহ,” ব্লগ পোস্টে বলা হয়েছে। এটি অব্যাহত রয়েছে: “আমাদের ওয়েব ক্রলার, যা CCBot নামে পরিচিত, সর্বজনীনভাবে অ্যাক্সেসযোগ্য ওয়েব পৃষ্ঠাগুলি থেকে ডেটা সংগ্রহ করে। আমরা পেওয়ালের পিছনে যাই না, কোনও ওয়েবসাইট অ্যাক্সেস করি না বা অ্যাক্সেসের বিধিনিষেধ এড়ানোর জন্য ডিজাইন করা কোনও পদ্ধতি ব্যবহার করি না।”
যাইহোক, Reisner রিপোর্ট করেছেন যে Common Crawl এর আগে OpenAI, Anthropic এবং অন্যান্য কৃত্রিম বুদ্ধিমত্তা-কেন্দ্রিক কোম্পানি থেকে অনুদান পেয়েছে। NVIDIA তার ওয়েবসাইটে নিজেকে “কর্মচারী” হিসাবে তালিকাভুক্ত করে। কাঁচা পাঠ সংগ্রহের পাশাপাশি, রেইসনার লিখেছেন, ফাউন্ডেশন এআই প্রশিক্ষণের জন্য ডেটাসেট সংগ্রহ ও বিতরণ করতেও সাহায্য করে-এমনকি সেগুলিকে বৃহত্তর ব্যবহারের জন্য উপলব্ধ করে।
নির্বিশেষে, এআই শিল্প কীভাবে কপিরাইটযুক্ত উপাদান ব্যবহার করে তা নিয়ে লড়াই শেষ হয়নি। ওপেনএআই, উদাহরণস্বরূপ, নিউ ইয়র্ক টাইমস এবং ম্যাশেবলের মূল কোম্পানি জিফ ডেভিস সহ প্রধান প্রকাশকদের কাছ থেকে বেশ কয়েকটি মামলার কেন্দ্রে রয়েছে।
বিষয় কৃত্রিম বুদ্ধিমত্তা
প্রকাশিত: 2025-11-06 00:40:00
উৎস: mashable.com










