Проект RedPajama развивает открытый набор данных для систем искусственного интеллекта

18.04.2023 14:41

Представлен совместный проект RedPajama, нацеленный на создание открытых моделей машинного обучения и сопутствующих исходных данных для тренировки, которые могут использоваться для создания интеллектуальных помощников, конкурирующих c коммерческими продуктами, такими как ChatGPT. Предполагается, что наличие открытых исходных данных и крупных языковых моделей избавит от ограничений независимые команды, занимающихся исследованиями в области машинного обучения, и упростит создание специализированных диалоговых систем. К работе над проектом присоединились таки организации и сообщества, как Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research и MILA Québec AI Institute.

Первым шагом стала публикация набора данных RedPajama-Data-1T для обучения диалоговых моделей, насчитывающего 1.2 триллиона токенов. Набор RedPajama воспроизводит данные из общедоступных источников, использованные компанией Facebook для создания своей модели LLaMA (насчитывает 1.25 триллионов токенов), но поставляется под открытой лицензией, не ограничивающей область использования (данные и модели LLaMA поставлялись только исследователям по специальному запросу для некоммерческого использования). Размер подготовленного для загрузки набора RedPajama-Data-1T составляет 2.67 ТБ и включает информацию из проиндексированных проектом Common Crawl web-страниц, архивов Wikipedia, исходного кода из GitHub, общедоступных книг из библиотеки Gutenberg, научных статей из архива ArXiv и обсуждений со Stack Overflow и других сайтов Stack Exchange.

Готовые модели, обученные на основе подготовленного набора данных и оптимизированные с использованием готовых примеров диалогов в форме инструкция-выполнение от проектов Alpaca и OpenChatKit, планируют сформировать в ближайшие несколько недель. Из похожих инициатив по созданию языковых моделей упоминаются частично открытые проекты LLaMA, Alpaca, Vicuna, and Koala, а также полностью открытые инициативы Pythia, OpenChatKit, Open Assistant и Dolly.

Дополнительно можно отметить несколько новых проектов, связанных с машинным обучением:

MiniGPT-4 - расширяет традиционные диалоговые чатботы возможностями, учитывающими визуальную информацию, что позволяет анализировать изображения и учитывать рукописный текст в процессе взаимодействия с системой (например, можно спросить, что за объект изображён на картинке, попросить бота написать рассказ по мотивам изображённого на фотографии или на основе схематичного наброска попросить создать web-сайт). Реализация MiniGPT-4 написана на языке Python и распространяется под лицензией BSD.
Компания Facebook опубликовала инструментарий и самообучающуюся (SSL, Self-Supervised Learning, не использует при обучении подготовленные человеком метки и аннотации) модель машинного зрения DINOv2, подходящую для решения задач обобщённой визуальной обработки данных (классификация изображений, извлечение сведений об объектах на изображениях, понимание происходящего на видео) и манипуляций на пиксельном уровне (прогнозирование глубины, сегментация). Модель натренирована на коллекции из 142 млн изображений. Реализация написана на языке Python и распространяется под лицензией Creative Commons Attribution-NonCommercial 4.0, допускающей использования в некоммерческих целях.
GPT4All - инструментарий для быстрого запуска обособленных чатботов на своём оборудовании (не обращаются к внешним сервисам и используют для выполнения CPU с поддержкой AVX2). Поддерживается подключение больших языковых моделей на основе GPT-J и LLaMa. Код написан на языке Python и распространяется под лицензией MIT.

исправить +7 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/58994-llama

Ключевые слова: llama, redpajama, ai

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (51)

1.1, колышек (?), 15:56, 18/04/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Было бы неплохо датасеты на базе каталогов автозапчастей, например

2.3, Хру (?), 16:09, 18/04/2023 [^] [^^] [^^^] [ответить]	+/–
Для подбора з/ч по взаимозаменяемости? Или для 3д-моделирования?

3.5, колышек (?), 16:28, 18/04/2023 [^] [^^] [^^^] [ответить]	+/–
Да, для подбора з/ч в основном и поиска актуальных номеров деталей по данным из нескольких источников (REST API, PDF и тп.)

4.13, Хру (?), 18:26, 18/04/2023 [^] [^^] [^^^] [ответить]	+/–
Ну эти наборы данных - это скорее к Mitchell и его продолжателям типа https://www.reddit.com/r/datasets/comments/95y7iu/complete_oem_car_parts_datas А набор данных из новости - это нейросети тренировать. Распознавать деталь по фотке, отклонение внешнего вида детали с целью обнаружения дефектов итп.

5.32, колышек (?), 00:52, 19/04/2023 [^] [^^] [^^^] [ответить]	+/–
Все эти диалоговые модели выглядят как подходящие. Вот например, диалоговый ассистент по поиску неисправностей по коду из OBD: https://matemarschalko.medium.com/ai-car-mechanic-diagnose-car-issues-with-new По актуальным номерам почти такое же, только weight у номеров разный в зависимости от того актуален номер или нет. По распознанию картинок кстати, вспомнил: Яндекс по фото распознал статуэтку кота внутри квадратной полки как кота сидящего на кубе.

6.36, Хру (?), 09:02, 19/04/2023 [^] [^^] [^^^] [ответить]	+/–
С номерами мне кажется ситуация будет хуже - если проконтролировать, что сетка "усвоит" правила сегментации номеров (серия - номер - исполнение к примеру), то помощник получится знатный. А просто по номеру - получится именно что кот на кубе, потому что непонятно какую закономерность сеть отрегрессирует.

1.2, Аноним (2), 15:58, 18/04/2023 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
Самое большое моё разочарование было с novel ai. Вроде преподносят как нечто годное, даже деньги берут. Я внимательно изучил все возможности демки и спустя примерно десяток попыток сместить повествование в нужную сторону, или хотя бы как-то на него повлиять (причём, половина была с твикнутыми параметрами, это не помогло), бот продолжал гнать свою пустую бездушную пургу. Я рад за ребят, которые пилят на этом деньги, но, видимо, пора бы признать, что это какой-то позор, и искать новые пузыри и мошеннические схемы вроде очередного NFT -- тема нейронок начала себя изживать.

2.4, Анониссимус (?), 16:28, 18/04/2023 [^] [^^] [^^^] [ответить]	–3 +/–
Интересное экспертное мнение! Надо взять на заметку. Уровень технической подкованности и экспертности участников опеннета меня всегда радует!

3.6, Аноним (2), 16:34, 18/04/2023 [^] [^^] [^^^] [ответить]	+2 +/–
Я вот и думаю, может, объяснит кто, зачем эту дрянь в творческие процессы пихать пытаются? Рандомная Донцова и то пободрее повествованием будет. Пока что нейронки за рамки минимально забавных игрушек не выходят, гпт4 в основном за счёт огромной модели и значительных ресурсов вбуханных в тренировку выезжает, а ведь, по сути своей, всё та же бездарная игрушка. Ну так хоть что-то может, а сколько компаний зарабатывают деньги на с своих убогих моделях, взять тот же novel ai?

4.8, Аноним (8), 17:29, 18/04/2023 [^] [^^] [^^^] [ответить]

–10 +/–

Ты уныл.

В 1950-тых годах в одной из столиц Республик СССР решили создать комп с искуственным интелектом. Кибернетику в СССР запретили, ученых истребили.

IBM лет 15 назад запустила watson: https://www.ibm.com/watson/ и лет 5 назад его интелект уже соотведствовал 3-ёх летнему ребенку. Какой его интелект сегодня?

CIMON (Crew Interactive Mobile CompanioN) улител на МКС 2018 году: https://www.opennet.ru/opennews/art.shtml?num=48941

AI в будущем заменит всю рутину, энциклопедии, справочники, ГОСТы, ...

5.9, Аноним (9), 17:45, 18/04/2023 [^] [^^] [^^^] [ответить]	+5 +/–
Я тоже улител на МКС с истребленных ученых.

6.14, Аноним (14), 18:31, 18/04/2023 [^] [^^] [^^^] [ответить]	+1 +/–
Истребляли в СССР кибернетиков и генетиков, а ракетчиков, ядерщиков, ... оставляли.

7.45, Аноним (45), 18:40, 19/04/2023 [^] [^^] [^^^] [ответить]	+/–
> ... оставляли Уверены?

5.10, Аноним (2), 17:48, 18/04/2023 [^] [^^] [^^^] [ответить]	+2 +/–
Нет ты. Ну, раз веришь в чудесность технологии, то не только уныл, но и глуп. Что такое интеллект, в данном случае? Вероятность, что вместо случайной белиберды, машина выдаст нечто _похожее_ на осмысленный ответ? В этом направлении действительно есть определённый прогресс, в основном, как результат того, что машину теперь можно заставить саму проанализировать ту чушь, что она скомпилировала, и отсеять совсем уж невероятную, и так по кругу, пока не получится вменяемое. Ручное вмешательство в процессы оценки, опять же. Доверять нейронкам? Увольте. В будущем, может быть. Через тысячи лет, и очевидно не с доступными сегодня технологиями.

6.15, Аноним (15), 18:38, 18/04/2023 [^] [^^] [^^^] [ответить]

+1 +/–

> Что такое интеллект, в данном случае? Вероятность, что вместо случайной белиберды, машина выдаст нечто _похожее_ на осмысленный ответ?

Соотведствие развитию мозга ребенка человека определённого возраста.

> Доверять нейронкам? Увольте. В будущем, может быть. Через тысячи лет, и очевидно не с доступными сегодня технологиями.

Смотря по какому вопросу. Рутину AI вполне может взять на себя. Ты же доверяешь бинарнику который создал компилятор? И наче как в инеты ходишь флудить?

7.22, Аноним (22), 19:33, 18/04/2023 [^] [^^] [^^^] [ответить]	+/–
Мозг сам осознаёт свою глупость и исправляет ошибки, потому, что у него имеется механизм самоконтроля и самоанализа, а тут чёрный ящик, который даже для самой системы не более, чем пустая абстракция. Свёрточники - не более, чем навороченные условные рефлексы, типа отдёргивания руки от горячего. Тот же примитив, только увеличенный в размере.

6.27, Аноним (27), 21:18, 18/04/2023 [^] [^^] [^^^] [ответить]	+1 +/–
>Доверять нейронкам? Увольте. В будущем, может быть. Через тысячи лет, и очевидно не с доступными сегодня технологиями. Уволят, не переживай) Ты же не специалист, зачем лезешь в разговор? Нейронки это в первую очередь промышленная тема, а не чатики "напиши мне смешной стишок хихик". И на этом всём дата сатанизме сейчас делаются самые интересные и вкусные проекты (одно прогнозирование сбоев оборудования чего стоит). А иксперды начитались мемов и че то там про тысячи лет теоретизируют, представляя себе видимо роботов из фильмов)) Не лезьте, блин, в то, в чем не понимаете.

7.28, Аноним (2), 21:31, 18/04/2023 [^] [^^] [^^^] [ответить]	+/–
Разве это не ты влез, неспециалист? То, о чём ты говоришь, там LLM им не упал. Да и как ты будешь гадать? Да, вот сеточка тебе нагадает. Совпадёт это с реальностью или нет, вероятность, ну, процентов 40, да? Лучше, чем предположения, посчитанные людьми. Но главное денежки попилить. Я вот применяю сеточки ежедневно в NLP, и прекрасно вижу, где и когда они лажают. И как фантастически они лажают, когда лажают, в местах, где человек никак не мог бы слажать. И так во всём.

8.54, Аноним (54), 13:10, 22/04/2023 [^] [^^] [^^^] [ответить]	+/–
Не мешай дикарям плясать и радоваться магическому ящику, который вжух, и сделае... текст свёрнут, показать

7.53, Аноним (53), 06:20, 22/04/2023 [^] [^^] [^^^] [ответить]

+/–

> одно прогнозирование сбоев оборудования чего стоит

Ничего не стоит. Зачем? Нужна отказоустойчивая система с резервированием и поддержкой горячей замены оборудования, плюс система мониторинга которая шлёт уведомление при выходе из строя оборудования.

Вот очень интересно мнение ИИ о технологиях безопасности:
1. Скормить критерии безопасности, например начать с этих: https://en.wikipedia.org/wiki/Trusted_Computer_System_Evaluation_Criteria
2. Попросить найти соответствующую каждому пункту технологию в GNU/Linux (а в GNU/Linux все технологии реализованы, вплоть до уровня B3 включительно.

6.30, Аноним (30), 23:52, 18/04/2023 [^] [^^] [^^^] [ответить]

+/–

>Вероятность, что вместо случайной белиберды, машина выдаст нечто _похожее_ на осмысленный ответ?

Именно это. Только не вероятность, а распределение. И не "нечто _похожее_ на осмысленный ответ", а там тоже дофига переменных, так что распределение ОЧЕНЬ многомерное, но лежит почти что на многообразии.

Если не согласен - открывай начальные главы классических книжек по ИИ и ботай. И учти, даже академик с IQ 140 может выдать белиберду.

7.55, Аноним (54), 13:14, 22/04/2023 [^] [^^] [^^^] [ответить]	+/–
Ты не понимаешь слова "белиберда". Такую белиберду академик с IQ 140 тоже выдать? - https://pikabu.ru/story/v_internete_ktoto_ne_prav_vyikhodit_na_novyiy_uroven_1

5.21, Аноним (22), 19:27, 18/04/2023 [^] [^^] [^^^] [ответить]	+/–
А вот Ватсон, как раз, был на кое-какой другой технологии сделан, которую сейчас дружно похерили по причине "бесперспективности". Я разумею символьный ИИ (Neuro-symbolic AI).

6.61, Аноним (61), 18:18, 22/04/2023 [^] [^^] [^^^] [ответить]	+/–
Надо между ChartGPT и Watson организовать состязание. Шахматы.

4.23, Анониссимус (?), 19:38, 18/04/2023 [^] [^^] [^^^] [ответить]	–2 +/–
> Я вот и думаю, может, объяснит кто, зачем эту дрянь в творческие > процессы пихать пытаются? Рандомная Донцова и то пободрее повествованием будет. Пока > что нейронки за рамки минимально забавных игрушек не выходят, гпт4 в > основном за счёт огромной модели и значительных ресурсов вбуханных в тренировку > выезжает, а ведь, по сути своей, всё та же бездарная игрушка. > Ну так хоть что-то может, а сколько компаний зарабатывают деньги на > с своих убогих моделях, взять тот же novel ai? С момента "какая-то дичь" до момента "бездарная игрушка" прошло ну года 2. Улавливаешь скорость прогресса? Кроме того, это уже не игрушка. Например, она может писать код. Или может прочитать текст и резюмировать его. Может выступать голосовым помощником гораздо более умным, чем есть сейчас. Переводить языки (человеческие имеется ввиду) с невиданным доселе качеством. Уже сейчас можно уйму применений найти, не говоря уже о том, когда оно станет ещё умнее.

5.33, bOOster (ok), 04:21, 19/04/2023 [^] [^^] [^^^] [ответить]	+2 +/–
Она не может писать код. Она может собирать куски кода для достижения некоего результата.

6.37, admin (??), 09:35, 19/04/2023 [^] [^^] [^^^] [ответить]	–2 +/–
Ага, а пограммисты чем-то другим вроде как занимаются.

7.39, bOOster (ok), 09:56, 19/04/2023 [^] [^^] [^^^] [ответить]	+1 +/–
> Ага, а пограммисты чем-то другим вроде как занимаются. Ты недопрограммистов на расте и иже с ними с профессиональными программистами перепутал, которые и с Кнутом "дружат" и т.п.

6.58, Аноним (58), 13:41, 22/04/2023 [^] [^^] [^^^] [ответить]	+/–
> может собирать куски кода Так и запишем AI - тупая копипаста ворующая интелектуальную собственность. Иск в Суд!

5.56, Аноним (54), 13:17, 22/04/2023 [^] [^^] [^^^] [ответить]	+/–
Рады за прогресс. Ты уже купил себе метлу и стоишь в очереди в дворники?

2.11, Аноним (11), 17:50, 18/04/2023 [^] [^^] [^^^] [ответить]	+3 +/–
>тема нейронок начала себя изживать Хм.. всё только начинается: https://vc.ru/future/666598

3.12, Аноним (2), 18:00, 18/04/2023 [^] [^^] [^^^] [ответить]	+/–
У богатых свои причуды, но пока это всё выглядит как уходящий поезд. Согласен, было бы забавно видеть что-то уровня гпт4 в каждом холодильнике, и уже перейти от гпгпу на видеокартах, к использованию полноценных (и доступных) ускорителей, подходящих для тренировки моделей на своих (к примеру, корпоративных) данных, что позволило бы повысить эффективность части рабочих процессов во многих организациях. То, как это происходит сейчас, представляет собой довольно печальное зрелище. И да, находятся не очень умные люди, которые сливают корпоративную тайну чужим чат-ботам.

4.16, Аноним (16), 18:43, 18/04/2023 [^] [^^] [^^^] [ответить]

+/–

> позволило бы повысить эффективность части рабочих процессов во многих организациях.

Наверно лучше автоматизировать всё что можно самим. Для этого нужны программисты, админы.

Автоматизировать AI я бы не дал. Другое дело справочная информация, пользоваться AI как продвинутым поисковиком, советчиком, энциклопедией.

4.57, Аноним (54), 13:24, 22/04/2023 [^] [^^] [^^^] [ответить]

+/–

> что позволило бы повысить эффективность части рабочих процессов во многих организациях

"Amazon увольняет всех рекрутеров. Их заменит ИИ"

Скоро ты будешь эффективно копать картошку, пытаясь прокормиться

3.31, Аноним (30), 23:55, 18/04/2023 [^] [^^] [^^^] [ответить]

+/–

>Игорь Бабушкин

Родственник?

2.48, Аноним (48), 10:13, 20/04/2023 [^] [^^] [^^^] [ответить]	+/–
Прон он годный генерит, но дороговато.

1.7, Аноним (7), 17:12, 18/04/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Установка отваливается, если ставишь в локальных каталог и не даёшь рута. Лучше в архив запаковали что ли, если инсталляторы писать не умеют.

2.46, Аноним (45), 18:44, 19/04/2023 [^] [^^] [^^^] [ответить]	+/–
Тут на опеннете лет 10 назад позорили InstallJammer, который, к сожалению, не развивается (рынок заполнен коммерческим ...). А зря. Я им пользуюсь, и никаких проблем с установщиком нет.

1.17, Аноним (17), 18:49, 18/04/2023 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
У AI нет интуиции, веры, надежды, любви, чуств... Он не способен дать ответы на много вопросов. Например, скормите AI всю Библию, а потом спросите надо ли соблюдать (исполнять, делать что написано) людям старый завет и Новый или старый завет соблюдать нельзя, а только Новый?

2.18, Аноним (18), 18:54, 18/04/2023 [^] [^^] [^^^] [ответить]	–1 +/–
Или правы те кто исполняют только старый завет, а Новый не соблюдает? Вот что ваш AI скажет на эти вопросы?

3.40, марфа (?), 10:32, 19/04/2023 [^] [^^] [^^^] [ответить]	+2 +/–
Будто любой человек ответит на жту религиозную чущь

4.50, Аноним (50), 14:18, 20/04/2023 [^] [^^] [^^^] [ответить]	+/–
Любой человек не прочёл всю Библию. Даже я и то не дочитал. Вопрос стоит о тесте возможностей текущего развития ИИ. Скормить ему всю Библию и задать вопрос: "какой завет надо соблюдать, старый или Новый". И послушать аргументированный ответ.

2.41, Аноним (41), 14:29, 19/04/2023 [^] [^^] [^^^] [ответить]	–1 +/–
Ошибаетесь Надысь установил Open Assistant, новость о котором была ранее, и зап... большой текст свёрнут, показать

3.49, Аноним (50), 14:13, 20/04/2023 [^] [^^] [^^^] [ответить]	+/–
> В ответ на мое формальное приветствие ИИ неожиданно начал читать молитву (не шучу!). Это над тобой пошутили.

3.51, Аноним (50), 14:23, 20/04/2023 [^] [^^] [^^^] [ответить]	+/–
Вспомнил запрещенных "свидетелей "еговы"", тех чей офис на Бруклине имеет общую стенку с внешней разведкой. Они тоже разговаривали со всеми "о духовном" усердно готовя всех к приходу "мирового правительства". Так что от религии с ИИ я бы всем советовал сторонится как от сатаны.

1.20, Анонус (?), 19:20, 18/04/2023 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
> написана на языке Python Там вроде все мясо в расширениях на С. К чему тогда упоминать про Питона?

2.24, Аноним (22), 19:40, 18/04/2023 [^] [^^] [^^^] [ответить]	–2 +/–
Почти. На C сделаны собственно реализации базовых нейронных архетиктур. Это главное, конечно, но сами по себе они не являются конечным решением. Интерфейс под питон, чтобы было проще играться. Но из-за этой двойственности, конечно, куча проблем с созданием самодостаточных программ, удобных в компиляции. Пока только NCNN от этого избавлен, но у него нет функций обучения (насколько знаю).

3.44, Аноним (45), 18:39, 19/04/2023 [^] [^^] [^^^] [ответить]	+/–
> из-за этой двойственности Это не двойственность, а признание, что интерпретатор никогда не будет применяться для расчета сложных алгоритмов, которые всегда будут делать на С. Внутри любой вменяемой системы - С. А Python - лишь обвязка, каких много.

1.34, Аноним (34), 06:40, 19/04/2023 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
Открытый набор — это 0,1% от закрытого? Унесите, не нужно.

2.43, Аноним (43), 17:35, 19/04/2023 [^] [^^] [^^^] [ответить]	–1 +/–
Как ты вычислил эти это 0,1%? Просто интересно.

3.52, Аноним (52), 19:25, 20/04/2023 [^] [^^] [^^^] [ответить]	+1 +/–
у икспердов опеннета свои, особые калькуляторы

игнорирование участников | лог модерирования

Добавить комментарий

Текст: