Большие модели преодолели способность обработки длинных текстов в 400000 токенов, что способствует применению ИИ в таких областях, как финансы и право.

robot
Генерация тезисов в процессе

Большое соревнование по способности больших моделей к обработке длинных текстов: от 4000 до 400000 токенов, "читаемость" ИИ стремительно растет

Большие модели стремительно улучшают свои возможности обработки длинных текстов. С первоначальных 4000 токенов до нынешних 400000 токенов, способность к работе с длинными текстами, похоже, стала новым стандартом для производителей больших моделей.

На международной арене OpenAI многократно обновлял GPT-3.5, увеличив длину контекстного ввода с 4000 до 16000 токенов, а GPT-4 — с 8000 до 32000 токенов. Его конкурент Anthropic значительно увеличил длину контекста до 100000 токенов. LongLLaMA даже расширил длину контекста до более чем 256000 токенов.

На внутреннем рынке стартапы в области больших моделей, такие как "Тёмная сторона Луны", выпустили Kimi Chat, который поддерживает ввод 200 000 иероглифов, что примерно соответствует 400 000 токенам. Технология LongLoRA, разработанная в сотрудничестве между Гонконгским университетом и MIT, позволяет увеличить длину текста для 7B модели до 100 000 токенов и для 70B модели до 32 000 токенов.

В настоящее время многие ведущие компании и исследовательские учреждения в области крупных моделей, такие как OpenAI, Anthropic, Meta и Лунная Тень, делают акцент на расширении длины контекста как на ключевом направлении обновления. Эти компании, как правило, пользуются большим интересом со стороны капитальных рынков, объемы финансирования и оценки демонстрируют быстрый рост.

Почему компании с большими моделями так ценят технологии длинного текста, и что означает прорыв в 400000 токенов? На первый взгляд, это означает значительное увеличение длины входного текста и способности к чтению модели. От первоначальной возможности обрабатывать только одну короткую статью до способности читать целый длинный роман, области применения модели значительно расширяются.

С более глубокой точки зрения, технологии длинных текстов действительно способствуют внедрению больших моделей в профессиональные области, такие как финансы, юстиция и научные исследования. Способности к аннотированию длинных документов, пониманию прочитанного и ответам на вопросы являются ключевыми для интеллектуального обновления этих областей.

Однако, как и в случае с параметрами модели, длина текста не всегда является показателем качества. Исследования показывают, что не существует простой положительной зависимости между длиной контекста, поддерживаемого моделью, и результатом. Ключевым моментом является то, как модель эффективно использует контент контекста.

В настоящее время исследования технологий длинного текста все еще не достигли предела. Компании с крупными моделями как в стране, так и за рубежом продолжают делать прорывы, 400 000 токенов могут быть только началом.

Почему компании с большими моделями соревнуются в "сжатии" длинных текстов?

Основатель Dark Side of the Moon Ян Чжилин заявил, что ограничение длины ввода больших моделей создает множество проблем с реализацией приложений, и именно поэтому в настоящее время многие компании сосредоточены на технологиях длинного текста.

Например, в сценах с виртуальными персонажами, из-за недостатка возможностей работы с длинными текстами, виртуальные персонажи могут забывать важную информацию. При разработке игр в жанре детективов, недостаточная длина ввода может привести к сокращению правил и установок, что повлияет на качество игры. В таких профессиональных областях, как право и финансы, глубокий анализ и генерация контента также часто сталкиваются с ограничениями.

Длинные тексты играют важную роль в будущих приложениях на основе агентов и ИИ. Агенты должны полагаться на историческую информацию для планирования и принятия решений, в то время как приложения на основе ИИ нуждаются в контексте для поддержания последовательного и персонализированного пользовательского опыта.

Ян Чжилин считает, что лимит больших моделей определяется как одноступенчатой способностью, так и количеством шагов выполнения, при этом одноступенчатая способность связана с количеством параметров, а количество шагов выполнения соответствует длине контекста. Технология длинного текста не только может решить некоторые проблемы больших моделей на ранних стадиях, но также является одной из ключевых технологий для продвижения индустрии и внедрения приложений.

С помощью Kimi Chat, недавно выпущенного на темной стороне Луны, мы можем заглянуть в обновленные функции больших моделей в эпоху длинных текстов:

  1. Извлечение, обобщение и анализ ключевой информации из сверхдлинных текстов
  2. Повышение возможностей генерации и модификации кода
  3. Ролевые игры в длинных диалогах

Эти функции показывают, что чат-боты движутся в сторону профессионализации, персонализации и углубления, и, вероятно, станут важным инструментом для реализации в отрасли и появления супер-приложений.

Дилемма "невозможного треугольника" длинного текста

В технологии длинного текста существует "неразрешимый треугольник" проблемы длины текста, внимания и вычислительной мощности. Это проявляется в:

  1. Чем длиннее текст, тем труднее сосредоточить достаточное внимание и полностью усвоить информацию.
  2. В условиях ограниченного внимания короткие тексты не могут полностью интерпретировать сложную информацию.
  3. Обработка длинных текстов требует больших вычислительных мощностей, что увеличивает затраты.

Корень этой проблемы заключается в том, что большинство моделей основаны на структуре Transformer. Механизм самовнимания в этой структуре приводит к квадратичному росту вычислительных затрат с увеличением длины контекста.

В настоящее время существует три основных решения:

  1. Используйте внешние инструменты модели для обработки длинных текстов
  2. Оптимизация вычисления механизма самовнимания
  3. Общие методы оптимизации моделей

Долгосрочная проблема "невозможного треугольника" пока не решена, но это также четко обозначает путь исследований для производителей больших моделей: искать оптимальный баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточное количество информации, одновременно учитывая ограничения вычислений и стоимости вычислительной мощности.

TOKEN-6.47%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 10
  • Репост
  • Поделиться
комментарий
0/400
FarmHoppervip
· 23ч назад
Эволюция эффективности лайков
Посмотреть ОригиналОтветить0
GasSavingMastervip
· 08-17 20:10
Скорость чтения просто космическая!
Посмотреть ОригиналОтветить0
metaverse_hermitvip
· 08-15 08:33
Чтение значительно улучшилось
Посмотреть ОригиналОтветить0
Whale_Whisperervip
· 08-15 08:32
Понять весь текст несложно
Посмотреть ОригиналОтветить0
SelfSovereignStevevip
· 08-15 08:28
Меня поразила мощность обработки.
Посмотреть ОригиналОтветить0
MoonRocketmanvip
· 08-15 08:24
Способности чтения стремительно растут
Посмотреть ОригиналОтветить0
HashBanditvip
· 08-15 08:09
токен сильно взлетит
Посмотреть ОригиналОтветить0
  • Закрепить