کپی از کپی از کپی؛ آیا مدل‌های هوش مصنوعی در حال فروپاشی‌اند؟

سایت خبری واکیکی

1404/03/14

کپی از کپی از کپی؛ آیا مدل‌های هوش مصنوعی در حال فروپاشی‌اند؟

جهان صنعت نیوز، در سال های اخیر و به ویژه پس از عرضه ChatGPT در سال ۲۰۲۲، اینترنت با سرعتی چشمگیر به میدانی برای تولید محتوای ماشینی بدل شده است. وبلاگ ها، شبکه های اجتماعی و موتورهای جست وجو از محتوای تولیدشده توسط مدل های زبانی پر شده اند؛ محتوایی که تشخیص آن برای افراد عادی دشوار و آثار آن بر فضای شناختی انسان قابل توجه است.
این تحول، پژوهشگران حوزه هوش مصنوعی را نگران کرده است. داده هایی که زمانی بازتابی از زبان، تفکر و تجربه انسانی بودند، حالا آغشته به لایه های پیچیده ای از خروجی مدل های ماشین شده اند. اگر مدل های جدید بر اساس خروجی مدل های قبلی آموزش ببینند، چرخه ای معیوب آغاز می شود؛ مدلی که خودش را تقلید می کند و در نتیجه خلاقیت، دقت، و اصالت به تدریج از بین می رود. این پدیده «فروپاشی مدل» (model collapse) نامیده می شود.

فهرست مطالب

1 - فولاد پاک دیجیتال؛ شباهتی عجیب با عصر اتم
2 - از جست وجوی دستور پخت تا آمار واژگان؛ آلودگی محسوس است
3 - ضرورت اتصال به واقعیت مشترک

فولاد پاک دیجیتال؛ شباهتی عجیب با عصر اتم

این نگرانی ها برخی را به یاد دوره پس از جنگ جهانی دوم می اندازد؛ زمانی که فولاد تولیدشده پس از آزمایش های هسته ای به دلیل آلودگی رادیواکتیو، برای ابزارهای دقیق علمی دیگر قابل استفاده نبود. راه حل دانشمندان آن زمان، استخراج فولادهای قدیمی و غرق شده در کشتی های جنگی بود. اکنون برخی متخصصان داده، اینترنت پیش از ۲۰۲۲ را «فولاد پاک دیجیتال» می نامند و تلاش دارند آن را حفظ و بایگانی کنند.
یکی از این افراد، جان گراهام-کامینگ از شرکت Cloudflare است که پروژه ای جالب راه اندازی کرده است. این پروژه شامل آرشیوهایی از داده ها، نرم افزارها و محتوای انسانی پیش از انفجار هوش مصنوعی است؛ از جمله بایگانی Arctic Code Vault گیت هاب که در سال ۲۰۲۰ در معدن متروکه ای در نروژ ذخیره شد.

از جست وجوی دستور پخت تا آمار واژگان؛ آلودگی محسوس است

این نگرانی ها تنها در سطح نظری باقی نمانده اند. پل گراهام، بنیان گذار Y Combinator، در جست وجوی دمای مناسب پخت پیتزا، ناچار به فیلتر کردن نتایج بر اساس تاریخ شد تا اطلاعات پیشا-هوش مصنوعی پیدا کند. یکی از مهندسان سابق گوگل این رفتار را «جست وجو برای اینترنت پیش از آلودگی» توصیف کرد.
ربکا اسپیر، زبان شناس پروژه Wordfreq نیز در سال ۲۰۲۴ اعلام کرد به دلیل آلودگی داده های زبانی با خروجی مدل ها، دیگر نمی توان به آمارهای واژگانی اعتماد کرد. او به عنوان نمونه به واژه «delve» اشاره کرد که توسط مدل هایی مثل ChatGPT به طور غیرطبیعی زیاد استفاده می شود، در حالی که در زبان واقعی کاربرد نادری دارد.

ضرورت اتصال به واقعیت مشترک

ویل آلن، نایب رئیس Cloudflare، تأکید می کند که داده هایی که پیوندی واقعی با واقعیت انسانی دارند، همواره ضروری بوده اند و در آینده نیز اهمیت بیشتری خواهند یافت. او، که خود از کاربران ابزارهای هوش مصنوعی است، معتقد است اگر پزشکان و متخصصان حقوق یا مالیات، صرفاً به داده های ماشینی تکیه کنند، خطر گمراهی افزایش می یابد.
آلن و دیگر کارشناسان هشدار می دهند که حفظ داده های انسانی، پیش از آنکه بیش از این تحت الشعاع محتواهای مصنوعی قرار گیرند، ضرورتی برای حفاظت از واقعیت مشترک بشر است. همان گونه که دانشمندان به فولاد پاک برای سنجش های دقیق تکیه می کردند، شاید روزی نیاز داشته باشیم به داده های انسانی برای سنجش درک، خلاقیت و هویت خود رجوع کنیم.

مطالب مرتبط

ثبت دیدگاه

نام شما

متن دیدگاه

مطالب مرتبط