Современные большие языковые модели (LLM) постепенно достигают своего технологического потолка, поэтому ведущие разработчики смещают фокус на создание так называемых агентских систем, способных работать как полноценные ассистенты. При этом разница в работе популярных нейросетей заключается не столько в архитектуре, сколько в уникальных подходах к их обучению.
Об этом сообщил директор департамента искусственного интеллекта в компании Sponge Анар Лавренов в эфире Юрия Романенко.
По словам эксперта, эра архитектуры трансформеров, которая в свое время совершила революцию, приближается к своему пику. Пока индустрия ожидает принципиально новых решений, компании ищут другие пути развития, в частности через глубокую интеграцию ИИ в рабочие инструменты пользователей.
"Вот в свое время, конечно, с появлением GPT 3.5 это был большой скачок, потому что на смену рекуррентным моделям пришли непосредственно трансформеры. Это, конечно, был скачок. Мы сразу увидели вот эту магию общения. Сейчас мир ждет новую архитектуру. Мир еще ее не придумал. Архитектуру, которая превзойдет непосредственно трансформеры", — отметил Лавренов.
Поскольку фундаментальных изменений в базовой архитектуре в ближайшее время не предвидится, разработчики сместили фокус на более глубокое практическое применение существующих моделей. Вместо попыток создать новый алгоритмический "двигатель", компании начали разрабатывать инструменты, которые превращают нейросеть из обычного чат-бота в автономного помощника, способного выполнять комплексные задачи внутри других программ.
"MCP (Model Context Protocol) — это то, что непосредственно внедрили Anthropic. То, чем они смело перевернули рынок в этом плане. Почему? Потому что ребята из Anthropic — это ультразакрытая компания. Еще, наверное, более закрытая, чем OpenAI. Они поняли, что чат — это хорошо, но LLM — это непосредственно двигатель, то есть это бензин своего рода. А как ты его используешь, это уже может дать тебе преимущество. И как раз они реализовали MCP. То есть вы не просто можете переписываться в чате, вы можете там писать код, рисовать дизайн, ставить задачи — все через сообщения. То есть уже LLM в данном случае — это не просто чат-бот, это уже стало вашим полноценным ассистентом, он интегрируется в инструменты, которыми вы привыкли пользоваться. И сделав это, они очень сильно привлекли к себе внимание мирового сообщества. Резюмируя, считаю, что LLM доходит до своего потолка. И следующий этап развития — это совершенствование непосредственно агентских систем, то есть то, как LLM интегрируются в нашу среду взаимодействия", — пояснил Лавренов.
Обсуждая конкуренцию на рынке и практический опыт пользователей, Юрий Романенко поинтересовался, почему при одинаковой базовой архитектуре разные модели демонстрируют неодинаковую эффективность в специфических задачах. Анар Лавренов объяснил, что базовая информация у большинства моделей совпадает почти полностью. Главные отличия закладываются разработчиками на разных этапах тренировки нейросетей, в частности во время так называемого выравнивания под ожидания человека.
"Прежде всего, это сразу данные. Данные, на которых модель обучается, особенно на третьем этапе, когда выстраивается, выравнивается модель в соответствии с человеческими предпочтениями. Нужно честно сказать, что все модели на 90% используют одни и те же данные вообще в целом. Кстати, каждый из вас может зайти в любой чат, вы, например, даже можете попросить на английском сказать шутку. Он скажет: "Why don't scientists trust atoms? Because they make up everything". И вы каждого можете спросить просто, и он с огромной вероятностью ответит. Почему они отличаются? Кроме архитектуры есть так называемые техники обучения", — отметил Лавренов.
Эксперт пояснил, что процесс тренировки искусственного интеллекта — это не просто одноразовая загрузка информации. Он состоит из трех ключевых этапов. На первом модель учится взаимодействию слов на огромном массиве текстов, пытаясь предсказать каждое следующее слово. Именно на этой стадии, по словам специалиста, компания Anthropic, разрабатывающая Claude, применяет уникальные подходы.
"Есть вообще три этапа, может быть больше, но в целом их три. Первый этап — это когда модель просто на огромном объеме текста пытается предсказать следующее слово. Вот таким образом она учит взаимодействие слов между собой. Она все еще не понимает, что вы от нее хотите, не может отвечать на ваши вопросы. И как раз на этой стадии, именно на этапе предобучения, Claude использует очень сильные техники. В частности, они используют технику реструктурированного предобучения. Это когда данные перемешиваются таким образом, что несмотря на то, что модель пытается предсказать следующее слово, она все равно обучается в режиме вопросно-ответной системы. На втором этапе модель уже знает огромный лексикон, огромное взаимодействие слов, но она может только продолжать генерировать текст. Затем происходит обучение с учителем, когда вы уже показываете модели, какой есть вопрос и какой вы ожидаете от нее ответ. То есть вы ей не даете новых знаний, вы просто ей показываете, что в мире существует вопросно-ответная система", — рассказал Лавренов.
Однако наиболее определяющим для конечного результата и поведения чат-бота является третий этап — так называемый "алаймент" (alignment), то есть выравнивание нейросети под нужды и ожидания человека. Именно на этом этапе закладываются те самые 5-10% различий в узких доменах, которые отличают, например, ChatGPT от Claude.
"И как раз третий этап — это самый сильный этап с точки зрения поведения модели. Это так называемый режим алаймента (alignment), то есть обучение с подкреплением. И здесь как раз тоже Claude очень силен. Команда Anthropic вообще в свое время представила метод оптимизации DPO. Это их собственное изобретение. И здесь они также сильно могут выстраивать под человеческие предпочтения — "отвечай кратко, не надо писать сухо, без воды". По сути, как делает OpenAI. Опять-таки, резюмируя, модели по качеству не сильно отличаются между собой. То есть там буквально несколько процентов. Нельзя сказать, что точность ответа в GPT 90%, а в Claude 10. Нет, там, скорее всего, разница будет в узких доменах на 5-10%. Разница между этими моделями в данных, которые они используют, особенно на третьем этапе, где уже под человеческие предпочтения настраивается модель, тюнится, и также различные техники обучения. То есть не одной архитектурой достигаются результаты. Еще есть своеобразные техники, как именно данные подавать, как они пропускаются через модель, с какой скоростью она учится и так далее", — резюмировал Лавренов.
Обыски по всей Украине: Нацполиция взялась за должностных лиц ТЦК
США готовят новое давление в переговорах по Украине: чем хотят "купить" Москву
Это не рынок: Попенко раскрыл, кто пролоббировал повышение цен на электроэнергию
Кому ПФУ откажет в пенсии в 60 лет: адвокат назвал главную причину
Показать еще








