ويكيبيديا تحارب سرقة شركات الذكاء الاصطناعي

منذ ١ يوم ٢٩

تواجه موسوعة ويكيبيديا الإلكترونية صعوبة في التعامل مع تأثير روبوتات استخلاص البيانات، وهي روبوتات تستخلص النصوص والوسائط المتعددة من الموسوعة لتدريب نماذج الذكاء الاصطناعي التوليدية. ويؤثر هذا على خوادمها ويؤدي إلى زيادة التكاليف، وبطء أوقات التحميل بالنسبة للمستخدمين في بعض الحالات.

وفي محاولة للتخفيف من هذا العبء، قد تقدّم مؤسسة ويكيميديا، المنظمة التي تُدير بيانات "ويكيبيديا"، لمطوّري الذكاء الاصطناعي، مجموعة بيانات يُمكنهم استخدامها بحريّة، في محاولةٍ منها لمنع الروبوتات من استنزاف نطاق موقع ويكيبيديا العام، واستهلاكه لقدرٍ كبيرٍ من البيانات.

وتتضمن مجموعة البيانات ملخصات، وأوصافاً موجزة، وبيانات مفتاحية بأسلوب مربع المعلومات، وروابط صور، وأقسام مقالات مجزأة بوضوح. وتعاونت المؤسسة مع "كيغل"، وهي منصة لعلوم البيانات، لتقديم إصدار تجريبي من مجموعة بيانات مُهيكلة باللغتين الإنكليزية والفرنسية. ووفقاً لـ"غوغل"، مالكة "كيغل"، فإن مجموعة البيانات مُهيّئة للتعلم الآلي لجعلها أكثر فائدةً للتدريب والتطوير وعلوم البيانات.

"ويكيبيديا" توفر بيانات بلا مراجع

لا تحتوي مجموعة البيانات التي توفّرها الموسوعة الشهيرة على مراجع أو أي "عناصر غير نثرية" أخرى، مثل مقاطع الفيديو. قد يُؤدي نقص المراجع إلى غموض مسألة نسب المعلومات في مجموعة البيانات، والتأكد من مصداقيتها. "ويكيميديا ​​إنتربرايز"، وهي جزء من مؤسسة ويكيميديا ​​تسعى إلى إتاحة بيانات ويكيبيديا عبر واجهات برمجة التطبيقات، تقول إن المحتوى في مجموعة البيانات مُرخص بحريّة بموجب المشاع الإبداعي والملكية العامة، لأنه جميعه من "ويكيبيديا".

لكن حقوق ملكية المحتوى وذكر المصادر مشكلة مستمرة في روبوتات الدردشة المتاحة في السوق، والتي تقدّم الإجابات عن أسئلة المستخدم بنصوص بلا مصادر، فلا يستطيع المستخدم تقييم مصداقية المعلومات، ولا يحصل الناشر الأصلي على أية أموال ولا حتى وجود اسمه فيها للاعتراف بمجهوده. هذا وضع الناشرين حول العالم في مواجهات قانونية مع شركات الذكاء الاصطناعي، وعلى رأسها "أوبن إيه آي"، مالكة ChatGPT، بينما اختار ناشرون آخرون عقد صفقات مع هذه الشركات التكنولوجية لتقديم المحتوى لها. 

قراءة المقال بالكامل