Как показала практика последних двух лет, для создания мощных языковых моделей в первую очередь требуются огромные объёмы данных и соответствующие им вычислительные мощности. Осознание этого факта оказалось довольно грустным исследователей. Потому как это отодвинуло интерес к изучению и созданию передовых алгоритмов на второй план. Сейчас основные ресурсы направлены на получение самых объёмных датасетов и максимально производительного железа.
Как следствие, видим очень острую конкуренцию и за железо, и за данные. Наиболее мощные образцы железа фактически попали под правительственный контроль. А с автоматизированным сбором данных активно начали бороться корпорации.
Что, по сути, стало причиной потрясений на рынке соцсетей. Серьёзные проблемы которые возникли у Реддита и Твиттера начались именно с попытки ограничить или сделать платным автоматизированный сбор контента. Это привело к невозможности работы сторонних клиентов, ограничениям на просмотр и прочим изменениями, которые вызвали сильное недовольство аудитории. В итоге оно привело к той ситуации которую мы сейчас наблюдаем на этом рынке.
Интерес к ситуации проявляют и государственные регуляторы, которые отчаянно пытаются сформулировать какие-то правила, но слабое знание предметной области пока остаётся непреодолимым препятствием на этом пути. Разумеется, рано или поздно это препятствие получится обойти. И есть опасения, что случится вовсе не по причине того, что разнообразные еврокомиссары станут экспертами в сфере машинного обучения. К сожалению, многие считают что могут писать законы, выучив произношение нескольких терминов и поняв как их вставлять в предложения так, чтобы они выглядели относительно правдоподобно.
Чему есть немало наглядных иллюстраций. Практически каждый день мы сталкивается с идиотскими окнами всех видов и форм, которые вроде как должны защитить нас от сбора персональных данных с помощью cookies. Однако в реальности эта мера не привела ни к чему кроме затрат владельцев сайтов на создание этих шедевров дизайна и увеличения углеродного и прочих следов. Как говорится, большое спасибо.
Судя по всему, в Гугле хотят избежать мер регуляции подобного качества в отношении сбора данных для обучения своих моделей. Поэтому корпорация предлагает выработать стандарт для веб-платформ и издателей, который бы позволял им определять как и какие данные могут быть использованы третьими сторонами для машинного обучения.
В качестве образца Гугл приводит стандарт исключений для поисковых роботов (более известный как robots.txt), который используется уже почти 30 лет. Новый стандарт предлагается разработать коллективно, с привлечением широкой общественности, отраслевых специалистов и учёных. Как утверждается в корпоративном блоге, robots.txt был создан сообществом и оказался простым и прозрачным, но он создавался в эпоху когда современные системы машинного обучения ещё не существовали. И вот, пришла пора создать нечто подобное с учётом новых реалий.
Для начала все желающим предлагается присоединиться к email-рассылке в которой планируется широкое обсуждение в ближайшие месяцы.
То есть компания явно не спешит, но зато даёт возможность всем высказаться и вдоволь пообсуждать новые стандарты. И почему-то нам кажется, что Гугл начнёт внимательно прислушиваться к «голосу сообщества» не раньше, чем закончит обучение своей новой модели Gemini. Ведь пока нормы не сформулированы, то сбор данных будет продолжаться без каких-либо правил, так сказать, со всем уважением к сообществу. Потом рынок начнёт стабилизироваться и вход на него можно будет засыпать разнообразными ограничениями, правилами, стандартами и регуляциям.