Kitobni o'qish: «Разум в унисон. Технология мышления с ИИ»

© Оформление. ООО «Издательство Эксмо», 2025
Часть 1
Глава 1
Создание разума пришельцев
В ЭТОЙ ГЛАВЕ
• От механических трюков к цифровым революциям.
• Большие языковые модели – от предсказания к пониманию
• Страшно? Умно? Страшно-умно?
• Прорыв GPT-4: от игрушки к серьезному инструменту
«Парадоксы силы и слабости: когда ИИ удивляет и разочаровывает
От механических трюков к цифровым революциям
Говорить об искусственном интеллекте непросто – этот термин означал столько разных вещей, что все они перемешались в единую кашу понятий. Siri рассказывает анекдоты. Терминатор давит черепа. Алгоритмы определяют кредитные рейтинги. Мы давно очарованы машинами, способными мыслить.
Великий обман XVIII века
В 1770 году изобретение первого механического шахматного компьютера поразило всех, кто его видел. Шахматная доска стояла на сложном кабинете, а фигуры передвигал робот в одежде османского мага. Механический турок гастролировал по миру с 1770 по 1838 год, обыграв в шахматы Бенджамина Франклина и Наполеона. Увидев его в 1830-х, Эдгар Аллан По даже размышлял о возможности искусственного интеллекта.
Конечно, это была хитрая мистификация – внутри поддельных шестеренок прятался настоящий шахматный мастер. Но наша способность поверить в мыслящие машины обманула лучшие умы мира на целых три четверти века.
Рождение настоящего ИИ: 1950 год
Перенесемся в 1950 год, когда игрушка и мысленный эксперимент, созданные двумя гениями зарождающейся информатики, породили новое понимание искусственного интеллекта.
Игрушкой была механическая мышь Тесей, сконструированная Клодом Шенноном – изобретателем, шутником и величайшим теоретиком информации XX века. В фильме 1950 года он показал, как Тесей, работающий на переделанных телефонных реле, находит путь через сложный лабиринт. Это был первый настоящий пример машинного обучения.
Мысленным экспериментом стала игра в имитацию, где пионер компьютерных технологий Алан Тьюринг впервые изложил теории о том, как машина может достичь уровня функциональности, достаточного для подражания человеку. Хотя компьютеры были совсем новым изобретением, влиятельная работа Тьюринга помогла запустить зарождающуюся область искусственного интеллекта.
Циклы надежд и разочарований
Теорий было недостаточно. Горстка первых компьютерщиков начала работать над программами, раздвигающими границы того, что вскоре назвали искусственным интеллектом – термин, изобретенный в 1956 году Джоном Маккарти из MIT.
Прогресс поначалу был быстрым. Компьютеры программировали для решения логических задач и игры в шашки. Исследователи ожидали, что ИИ обыграет гроссмейстеров в шахматы в течение десятилетия. Но циклы ажиотажа всегда преследовали ИИ. Когда обещания не оправдались, наступило разочарование – одна из многих «зим ИИ», когда прогресс останавливается, а финансирование иссякает.
Последовали другие циклы подъема и спада. Каждый подъем сопровождался крупными технологическими прорывами, такими как искусственные нейронные сети, имитирующие человеческий мозг. За ними следовал крах, когда ИИ не мог выполнить ожидаемые цели.
Эра больших данных: 2010-е годы
Последний бум ИИ начался в 2010-х с обещания использовать методы машинного обучения для анализа данных и прогнозирования. Многие из этих применений использовали технику, называемую обучение с учителем (supervised learning) – эти формы ИИ нуждались в размеченных данных для обучения.
Размеченные данные – это данные, аннотированные правильными ответами для конкретной задачи. Например, чтобы обучить ИИ распознавать лица, нужно предоставить изображения лиц с указанными именами или идентификаторами людей на них.
Эта фаза ИИ стала доменом крупных организаций с огромными объемами данных. Они использовали эти инструменты как мощные системы прогнозирования – оптимизировали логистику доставки или угадывали, какой контент показать пользователю на основе истории просмотров.
Практическое применение: от отелей до Amazon
Представьте отель, пытающийся спрогнозировать спрос на следующий год, имея только существующие данные и простую таблицу Excel. До прогнозного ИИ владельцы отелей играли в угадайку, пытаясь предсказать спрос и борясь с неэффективностью и потраченными ресурсами.
С этой формой ИИ они могли вводить множество данных – погодные условия, местные события, цены конкурентов – и генерировать гораздо более точные прогнозы. Результатом стала более эффективная работа и, в конечном счете, более прибыльный бизнес.
Amazon стал венцом этих технологий в 2010-х. В основе логистического мастерства Amazon лежат алгоритмы ИИ, незаметно управляющие каждым этапом цепочки поставок:
• Прогнозирование спроса
• Оптимизация планировок складов
• Доставка товаров
• Роботы Kiva, транспортирующие полки с товарами к работникам склада
Ограничения ранних систем ИИ
Однако эти типы систем ИИ имели серьезные ограничения:
• Они плохо справлялись с прогнозированием «неизвестных неизвестных» – ситуаций, которые люди интуитивно понимают, а машины нет
• Испытывали трудности с данными, с которыми еще не сталкивались через обучение с учителем
• Самое важное – большинство моделей ИИ были ограничены в способности понимать и генерировать текст связным и контекстно-осознанным образом
Революция внимания: рождение трансформеров
Среди множества научных работ по различным формам ИИ одна выделялась броским названием «Attention Is All You Need» («Внимание – это все, что нужно»). Опубликованная исследователями Google в 2017 году, эта работа представила значительный сдвиг в мире ИИ, особенно в том, как компьютеры понимают и обрабатывают человеческий язык.
Статья предложила новую архитектуру под названием Трансформер (Transformer), которая могла помочь компьютеру лучше обрабатывать человеческую коммуникацию. До трансформера использовались другие методы обучения компьютеров пониманию языка, но они имели ограничения, серьезно сдерживающие их полезность.
Механизм внимания: как машины научились читать
Трансформер решил эти проблемы, используя «механизм внимания». Эта техника позволяет ИИ концентрироваться на наиболее релевантных частях текста, облегчая ИИ понимание и работу с языком более человекоподобным способом.
При чтении мы знаем, что последнее прочитанное слово в предложении не всегда самое важное, но машины с трудом справлялись с этой концепцией. Результатом были неловко звучащие предложения, явно сгенерированные компьютером.
Пример раннего генератора текста: «ГОВОРЯ О ТОМ КАК АЛГОРИТМЫ НЕЗАМЕТНО УПРАВЛЯЮЩИЕ КАЖДЫМ ЭЛЕМЕНТОМ» – так хотел продолжить этот абзац генератор цепи Маркова, ранняя форма ИИ для генерации текста.
Ранние генераторы текста полагались на выбор слов согласно базовым правилам, а не на чтение контекстных подсказок – поэтому клавиатура iPhone показывала так много плохих предложений автозаполнения.
Механизм внимания помогает решить эту проблему, позволяя модели ИИ взвешивать важность различных слов или фраз в блоке текста. Сосредотачиваясь на наиболее релевантных частях текста, трансформеры могут создавать более контекстно-осознанные и связные тексты по сравнению с более ранними прогнозными ИИ.
Большие языковые модели – от предсказания к пониманию
Что такое большие языковые модели
Эти новые типы ИИ, называемые Большими языковыми моделями (Large Language Models, LLM), все еще занимаются предсказанием, но вместо прогнозирования спроса на заказы Amazon они анализируют фрагмент текста и предсказывают следующий токен – просто слово или часть слова.
В конечном счете, это все, что технически делает ChatGPT – действует как очень сложное автозаполнение, как на вашем телефоне. Вы даете ему начальный текст, и он продолжает писать на основе статистических вычислений наиболее вероятного следующего токена в последовательности.
Примеры работы предсказания
Если вы напишете «Закончи предложение: Я мыслю, следовательно, я…», ИИ каждый раз предскажет, что следующим словом будет «существую», потому что это невероятно вероятно.
Если вы напишете что-то более странное, например: «Марсианин съел банан, потому что», вы получите разные ответы каждый раз:
• «это была единственная знакомая еда в кладовой космического корабля»
• «это была новая интересная еда, которую он никогда не пробовал и хотел испытать вкус земного фрукта»
• «это было частью эксперимента по проверке пригодности земной пищи для потребления на Марсе»
Это происходит потому, что существует гораздо больше возможных ответов для второй половины предложения, и большинство LLM добавляют немного случайности в свои ответы, обеспечивая слегка разные результаты при каждом вопросе.
Процесс обучения: предтренировка без учителя
Чтобы научить ИИ понимать и генерировать человекоподобные тексты, его тренируют на массивном количестве текста из различных источников: веб-сайты, книги и другие цифровые документы. Это называется предтренировкой (pretraining), и в отличие от более ранних форм ИИ, это обучение без учителя – ИИ не нуждается в тщательно размеченных данных.
Анализируя эти примеры, ИИ учится распознавать паттерны, структуры и контекст в человеческом языке. С огромным количеством настраиваемых параметров (называемых весами), LLM могут создать модель, эмулирующую человеческую коммуникацию через письменный текст.
Веса – это сложные математические преобразования, которые LLM изучают, читая миллиарды слов. Они сообщают ИИ, насколько вероятно появление разных слов или частей слов вместе или в определенном порядке. Оригинальный ChatGPT имел 175 миллиардов весов, кодирующих связи между словами и частями слов.
Метафора повара-подмастерья
Представьте LLM как прилежного ученика-повара, стремящегося стать мастер-шефом. Чтобы изучить кулинарное искусство, ученик начинает с чтения огромной коллекции рецептов со всего мира. Каждый рецепт представляет фрагмент текста, различные ингредиенты символизируют слова и фразы. Цель ученика – понять, как комбинировать разные ингредиенты (слова) для создания вкусного блюда (связного текста).
Ученик-шеф начинает с хаотичной, неорганизованной кладовой, представляющей 175 миллиардов весов. Изначально эти веса имеют случайные значения и пока не содержат полезной информации о том, как связаны слова.
Чтобы построить свои знания и усовершенствовать стеллаж со специями, ученик-шеф проходит через процесс проб и ошибок, учась на изученных рецептах. Он обнаруживает, что определенные вкусы более распространены и лучше сочетаются – как яблоки и корица – а определенные вкусы редки, потому что их следует избегать – как яблоки и тмин.
Во время тренировки ученик-шеф пытается воссоздать блюда из рецептов, используя свою текущую кладовую. После каждой попытки ученик сравнивает свое творение с оригинальным рецептом и выявляет ошибки или несоответствия. Затем ученик пересматривает ингредиенты в кладовой, уточняя связи между вкусами для лучшего понимания их вероятного совместного использования.
Со временем и через бесчисленные итерации кладовая ученика-шефа становится более организованной и точной. Веса теперь отражают значимые связи между словами и фразами, и ученик превратился в мастер-шефа. При получении запроса мастер-шеф искусно выбирает правильные ингредиенты из своего обширного репертуара и консультируется со своим усовершенствованным стеллажом специй для обеспечения идеального баланса вкусов.
Высокая стоимость создания ИИ
Тренировка ИИ для этого – итеративный процесс, требующий мощных компьютеров для обработки огромных вычислений, связанных с изучением миллиардов слов. Эта фаза предтренировки – одна из главных причин, почему ИИ так дороги в создании.
Потребность в быстрых компьютерах с очень дорогими чипами, работающими месяцами в предтренировке, в основном ответственна за то, что более продвинутые LLM стоят свыше $100 миллионов для тренировки, используя большие количества энергии в процессе.
Источники данных для обучения
Многие ИИ-компании держат в секрете исходные тексты, на которых тренируются, называемые корпусами тренировки, но типичный пример тренировочных данных в основном состоит из текста, взятого из интернета, книг общественного достояния и исследовательских статей, и различных других бесплатных источников контента, которые исследователи могут найти.
Изучение этих источников в деталях выявляет странные материалы:
Вся база данных электронных писем Enron, закрытой за корпоративное мошенничество, используется как часть тренировочного материала для многих ИИ просто потому, что была сделана свободно доступной
Огромное количество любительских романтических романов включено в тренировочные данные, поскольку интернет полон писателей-любителей
Поиск высококачественного контента для тренировочного материала стал главной темой в разработке ИИ, поскольку жаждущие информации ИИ-компании исчерпывают хорошие, бесплатные источники. Одна оценка предполагает, что высококачественные данные, такие как онлайн-книги и академические статьи, будут исчерпаны к 2026 году.
Правовые и этические вопросы
Вероятно, большинство тренировочных данных ИИ содержит информацию, защищенную авторским правом, такую как книги, используемые без разрешения, случайно или намеренно. Правовые последствия этого пока неясны.
Поскольку данные используются для создания весов, а не непосредственно копируются в системы ИИ, некоторые эксперты считают это выходящим за рамки стандартного закона об авторском праве. В ближайшие годы эти вопросы, вероятно, будут решены судами, но создают облако неопределенности над этой ранней стадией тренировки ИИ.
Проблемы обучения без фильтров
Из-за разнообразия источников данных обучение не всегда хорошо. ИИ может также изучать предрассудки, ошибки и ложь из данных, которые он видит. Сразу после предтренировки ИИ также не обязательно производит результаты, которые люди ожидали бы в ответ на запрос.
Потенциально хуже то, что у него нет этических границ, и он был бы счастлив дать совет о том, как растратить деньги, совершить убийство или преследовать кого-то онлайн. LLM в этом предтренированном режиме просто отражают то, на чем они были тренированы, как зеркало, без применения суждения.
Тонкая настройка и человеческая обратная связь
После изучения всех текстовых примеров в предтренировке многие LLM проходят дальнейшее улучшение во второй стадии, называемой тонкой настройкой (fine-tuning).
Один важный подход к тонкой настройке – привлечение людей в процесс, который ранее был в основном автоматизированным. ИИ-компании нанимают работников – некоторых высокооплачиваемых экспертов, других низкооплачиваемых контрактных работников в англоговорящих странах, таких как Кения – читать ответы ИИ и оценивать их по различным характеристикам.
В некоторых случаях это может быть оценка результатов на точность, в других – отсеивание жестоких или порнографических ответов. Эта обратная связь затем используется для дополнительной тренировки, тонкой настройки производительности ИИ в соответствии с предпочтениями человека.
Этот процесс называется Обучение с подкреплением на основе человеческой обратной связи (Reinforcement Learning from Human Feedback, RLHF), обеспечивающее дополнительное обучение, которое усиливает хорошие ответы и сокращает плохие.
Мультимодальные возможности
LLM учатся работать с изображениями, получая способность как «видеть», так и создавать картинки. Эти мультимодальные LLM объединяют силы языковых моделей и генераторов изображений.
Они используют архитектуры трансформеров для обработки текста, но также применяют дополнительные компоненты для работы с изображениями. Это позволяет LLM связывать визуальные концепции с текстом и получать понимание визуального мира вокруг них.
Современный пример: Дайте мультимодальному LLM ужасно нарисованную от руки картинку самолета, окруженного сердечками, и он скажет: «Я думаю, это милый рисунок самолета с сердечками вокруг него. Похоже, вы любите летать или кого-то, кто летает. Может быть, вы пилот или у вас есть любимый человек, который пилот. Или, может быть, вы просто любите путешествовать и исследовать новые места».
Затем он может использовать свои гораздо лучшие навыки рисования, чтобы предоставить еще лучшую версию картинки. Большинство крупных LLM получают мультимодальные возможности, что позволит им изучать мир новыми и непредсказуемыми способами.
Резюме: революция в понимании языка
Переход от ранних предсказательных систем к современным LLM представляет фундаментальный сдвиг в искусственном интеллекте. Трансформеры и механизм внимания позволили машинам понимать контекст и генерировать связные тексты способом, который казался невозможным еще несколько лет назад.
Современные языковые модели – это не просто улучшенные калькуляторы или системы поиска. Они представляют собой качественно новый тип интеллекта, способный к творчеству, анализу и взаимодействию на уровне, приближающемся к человеческому. И это только начало их эволюции.


Bepul matn qismi tugad.