Поддержка сайта

Высокие позиции в поисковой системе, на прямую зависят от развития вашего сайта.

Продвижение сайтов

Эффективность стратегий продвижения подтверждается сотрудничеством с крупными клиентами и отзывами о нашей работе.

Создание сайтов

Мы делаем сайты быстро, недорого и профессионально. От работы с нами, у вас останутся только положительные эмоции.

Поступки и приключения

.

Иногда передача алгоритмам права решать, что мы увидим и какие возможности нам предложат, приносит более честные результаты.

Компьютер может игнорировать расу и пол, на что люди обычно не способны. Но это лишь в случае, если соответствующие алгоритмы добросовестны и проницательны. Иначе они будут просто отражать социальные нормы той культуры, которую обрабатывают.

В ряде случаев алгоритмическая обработка персональных данных может привести даже к большей дискриминации, чем если бы этим занимались люди. Например, программа, помогающая компаниям процеживать массу резюме в поисках подходящих соискателей, может «учиться», принимая во внимание, сколько рекомендованных ею кандидатов были наняты. Если работодатель выбирает девять белых подряд, то программа может сделать вывод, что компания не заинтересована в черных, и исключит их из дальнейшего поиска. «Во многих отношениях, — пишет социолог Дэлтон Конли из Нью-Йоркского университета, — такая сетевая категоризация более коварна, чем банальная сортировка по расе, классу, полу, религии или любому другому параметру». Среди программистов такая ошибка получила название «чрезмерно близкой подгонки».

Онлайн-сервис видеопроката Netflix работает на основе алгоритма CineMatch. Сначала все было довольно-таки просто. Если я взял напрокат первый фильм трилогии «Властелин колец», то Netflix мог изучить, какие фильмы брали другие люди, посмотревшие его. Если многие из них просили «Звездные войны», то велика вероятность, что и я захотел бы их посмотреть.

Этот метод анализа называется k-NN (метод «k-ближайших соседей»), и с его помощью CineMatch научился довольно ловко угадывать, что люди хотели бы посмотреть, исходя из тех фильмов, что они уже брали, и оценок, которые им поставили. К 2006 году CineMatch мог с точностью до балла предсказывать оценку, которую пользователь выставит любому из многих сотен тысяч фильмов в коллекции Netflix. Он дает более точные рекомендации, чем большинство людей. Человек-продавец ни за что не порекомендовал бы фильм «Молчание ягнят» поклонникам «Волшебника страны Оз», однако CineMatch знает: людям, которым по душе один из этих фильмов, зачастую нравится и другой.

Но главу Netflix Рида Хастингса это не устроило. «Сейчас мы вывели модель Т, а возможно гораздо большее», — сказал он журналисту в 2006 году. 2 октября 2006 года на сайте Netflix появилось объявление: «Мы заинтересованы. Цена вопроса — 1 миллион долларов». Netflix опубликовал колоссальные массивы данных — рецензии, записи о прокате фильмов и другую информацию из своей базы, очищенную от всего, что могло бы указать на конкретного пользователя. И компания была готова заплатить миллион долларов человеку или команде, которые смогут опередить CineMatch по точности предсказаний хотя бы на 10 процентов. Конкурс Netflix Challenge был открыт для всех. «Все, что вам нужно, — это компьютер и классные идеи», — заявил Хастингс в интервью New York Times.

За девять месяцев в конкурсе поучаствовали около 1800 команд из более чем 150 стран. Они опирались на идеи машинного обучения, коллаборативной фильтрации, нейронных сетей и интеллектуального анализа данных. Обычно конкурсанты, соревнующиеся за такой крупный приз, действуют в тайне от других. Но Netflix призывала конкурирующие группы общаться друг с другом и открыла интернет-форум, где они могли совместно работать над общими затруднениями.

Если почитать этот форум, можно практически пощупать те проблемы, которые терзали конкурсантов во время трехлетней погони за более совершенным алгоритмом. Проблема чрезмерно близкой подгонки возникала снова и снова.

При создании алгоритмов анализа данных возникают две большие сложности. Первая — найти все структуры и вычленить их из шума. Вторая — противоположность первой: не выводить структур, которых на самом деле не существует. Формула, описывающая последовательность «1, 2, 3», может звучать как «предыдущее число плюс один» или же как «положительные простые числа от меньшего к большему». Вы не сможете выбрать верную, пока не получите больше данных. А если вы слишком поспешно делаете выводы, то занимаетесь чрезмерно близкой подгонкой.

В прокате фильмов риски невелики: в прошлом, например, многие зрители были убеждены, что если им понравились фильмы «Крестный отец» и «Крестный отец — 2», то понравится и «Крестный отец — 3». Но проблема чрезмерной подгонки — это, по сути, одна из центральных, неустранимых проблем стены фильтров. В сущности, это создание стереотипов.

Под «стереотипами» (этот термин употреблял еще Уолтер Липпман) часто понимаются злонамеренные, ксенофобские представления, не соответствующие действительности. Классический пример — «люди с таким-то цветом кожи глупее других». Однако даже если стереотипы и их негативные последствия в целом довольно точно описывают реальность, они все равно несправедливы по отношению к конкретным людям.

Маркетологи уже давно изучают «серую зону» между областью возможных прогнозов и теми прогнозами, которые оказались справедливы.

По словам Чарли Страйкера, бывалого игрока отрасли поведенческого таргетирования, выступавшего на саммите «Социальный граф», армия США добилась поразительных успехов, используя данные социальных графов для рекрутирования новых солдат. Ведь если шестеро ваших друзей по Facebook записались в армию, вероятно, и вы рассмотрите такую возможность. Выводить определенные заключения о вас на основании того, каким людям нравитесь вы или какие люди дали на вас ссылку, — это весьма неплохой бизнес. И метод этот работает не только в армии. Банки начинают использовать социальные данные, чтобы определить, кому можно давать кредит: если ваши друзья не платят вовремя, есть шанс, что и вы окажетесь таким же никчемным клиентом. «Решение будет приниматься исходя из кредитоспособности ваших друзей», — говорит Страйкер. «У этой технологии есть очень мощные варианты применения, — сказал еще один предприниматель, занимающийся социальным таргетированием, в интервью Wall Street Journal. — Кто знает, как далеко мы зайдем?»

Это вызывает тревогу еще и потому, что от компаний не требуют объяснять, на основе чего они принимают решения. В результате суждение о вас вам неизвестно, и вы не сможете его оспорить. К примеру, Linkedln, социальная сеть по поиску работы, предлагает спрогнозировать вашу дальнейшую карьеру: сравнив ваше резюме с резюме других людей из вашей области, продвинувшихся дальше, она может предсказать, где вы окажетесь через пять лет. Программисты компании надеются, что вскоре она сможет подсказывать решения, которые принесут вам больше пользы: «IT-профессионалы среднего уровня вроде вас, окончившие бизнес-школу Wharton, зарабатывают на 25 тысяч долларов в год больше, чем те, кто в ней не учился». Это весьма полезный сервис. Но представьте, что будет, если Linkedln передаст эти данные корпоративным клиентам, чтобы помочь им отсеять людей, которые по прогнозу оказываются неудачниками. Это может произойти в тайне от вас, вы не сможете поспорить, доказать, что прогноз ошибочен. Здесь не действует презумпция невиновности.

Вам кажется несправедливым, что банки дискриминируют клиентов лишь потому, что их школьные приятели не спешат оплачивать свои счета, или потому, что ваши вкусы совпадают со вкусами многих злостных неплательщиков? Действительно, так и есть. И это подводит к более общей проблеме индукции — логического метода, на основе которого алгоритмы выводят прогнозы из данных.

Философы бились над этой проблемой задолго до появления компьютеров. Вы можете подтвердить истинность математического доказательства, выводя его из аксиом, однако философ Давид Юм в 1722 году заметил, что на деле все иначе. Как следует из одного инвестиционного клише, предыдущие показатели не гарантируют достижения таких же результатов в будущем.

Возникает ряд серьезных вопросов по поводу науки, ведь она, по сути, представляет собой метод использования данных для прогнозирования будущего. Карл Поппер, выдающийся философ науки, всю жизнь пытался разобраться в проблеме индукции. Мыслители-оптимисты конца XIX века, изучая историю науки, видели в ней движение к истине. Поппер же решил сосредоточиться на тех обломках, что бросают вдоль этой дороги: на изобилии неверных теорий и идей, полностью соответствующих научным канонам и при этом ужасающе ошибочных. В конце концов, птолемеева концепция мира, где в центре — Земля, а Солнце и другие планеты вращаются вокруг нее, выдержала огромное количество математических проверок и научных экспериментов.

Поппер поставил проблему несколько иначе: если вы видели только белых лебедей, это еще не значит, что все лебеди — белые. Искать нужно черного лебедя — контрпример, подтверждающий, что теория ошибочна. «Фальсифицируемость», доказывал Поппер, — это ключ к поиску истины. Целью науки, с его точки зрения, было нахождение максимально убедительных аргументов, против которых никто не сможет найти контрпример — черного лебедя. В основе взглядов Поп-пера лежало глубокое смирение в отношении выводимых научным методом знаний — ощущение, что мы ошибаемся столь же часто, как оказываемся правы, и обычно не знаем, правы мы или нет.

Именно этого лишены многие алгоритмические методы прогнозирования. Конечно, время от времени они сталкиваются с людьми и поступками, которые не вписываются в их шаблон, но такие отклонения не подрывают их фундаментальных основ. Ведь рекламодатели, от чьих денег зависит развитие подобных систем, не нуждаются в идеальных моделях. Им важно «попасть» в целевую аудиторию, а не прочувствовать всю сложность человеческого существа.

Когда вы моделируете погоду и предсказываете, что вероятность дождя составляет 70 процентов, этот прогноз никак не затрагивает состояние грозовых туч. Дождь пойдет или не пойдет, и все. Но когда вы предсказываете, что если мои друзья неплатежеспособны, то вероятность моей неплатежеспособности составляет 70 процентов, ситуация иная: ошибка повлечет за собой последствия. Это будет дискриминация.

Лучший способ избежать чрезмерной подгонки, по мнению Поп-пера, — это доказать ложность модели и выстроить новые алгоритмы, учитывающие презумпцию невиновности. Если Netflix показывает мне романтическую комедию и она мне нравится, он покажет мне еще одну и решит, будто я поклонник романтических комедий. Но если он хочет получить достоверную картину моей личности, ему следует постоянно проверять эту гипотезу — например, подкинуть мне фильм «Бегущий по лезвию» и попробовать доказать, что я люблю не только комедии. Иначе я попаду в ловушку локального максимума, где обитают Хью Грант и Джулия Роберте.

Статистические модели, на которых основана стена фильтров, списывают со счетов слишком сильные отклонения. Но на деле именно они делают жизнь интересной и дают нам вдохновение. И именно отклонения — первые признаки перемен.

Один из лучших аргументов против алгоритмов прогнозирования можно найти, как это ни удивительно, у русского романиста XIX века Федора Достоевского. Его книга «Записки из подполья» была страстной критикой утопического научного рационализма тех дней. Достоевский размышлял над регламентированной, упорядоченной человеческой жизнью, которую обещала наука, и пророчил банальное будущее. «Все поступки человеческие, — ворчит безымянный рассказчик, — само собою, будут расчислены тогда по этим законам, математически, вроде таблицы логарифмов, до 108 000, и занесены в календарь… все будет так точно исчислено и обозначено, что на свете уже не будет более ни поступков, ни приключений».

Мир часто следует предсказуемым правилам и соответствует предсказуемым моделям: прилив начинается и кончается, затмение приходит и уходит, даже погода становится все более предсказуемой. Но применять такой подход к человеческому поведению опасно хотя бы потому, что лучшие мгновения нашей жизни — зачастую самые непредсказуемые. Если жизнь полностью предсказуема, то и жить не стоит. Но алгоритмическая индукция может привести к тотальному детерминизму, когда наши предыдущие клики полностью определяют наше будущее. Иными словами, если мы не будем стирать нашу интернет-историю, возможно, нам придется повторять ее вечно.

.

Читайте так же:
Not found