22.06.2012 15:41
Новости.
Просмотров всего: 4174; сегодня: 1.

Взгляд на мир глазами Википедии

Что можно сделать за день при помощи новой SGI® UV™ 2000 – крупнейшей в мире системы добычи данных, размещенных в основной памяти?

International Supercomputing Conference 2012

BUSINESS WIRE – Признанные лидер в области технических вычислений компания SGI (NASDAQ:SGI) в партнерстве с Калевом Х. Леетару (Kalev H. Leetaru) из Университета Иллинойса создала первую в истории систему хронологического картографирования и поиска полнотекстовых контентов в англоязычной версии Википедии во времени и пространстве. Результатами являются визуальные отображения современной истории, получаемые менее чем за день благодаря использованию методов добычи данных, размещенных в основной памяти (in-memory data-mining). Загрузив всю англоязычную Википедию в SGI® UV™ 2000, Леетару смог показать, как с точки зрения Википедии развивался мир на протяжении последних двух столетий. Место, год и положительное или отрицательное отношение привязывалисть к тем или иным упоминаниям.

Картографирование статей Википедии уже проводилось в рамках предыдущих проектов, когда автор вручную задавал локационные метаданные, но на эти прошлые попытки приходится лишь крохотная доля локационной информации Википедии. Данный проект раскрыл содержание самих статей, распознавая каждое место и дату на всех четырех миллионах страниц и связи между ними для создания грандиозной сети.

Википедия в совершенно новом ракурсе

"Такой анализ позволяет миру дистанцироваться от отдельных статей и текста, чтобы увидеть общую картину громадного знания, накопленного в Википедии, не ограничиваясь постраничным просмотром. Теперь мы можем видеть, как эволюционировало одно из крупнейших собраний человеческого знания, и то, что мы не могли видеть никогда раньше, например, глобальное настроение в определенное время и в определенном месте или наличие пробелов в представленном знании", - сказал Франц Аман (Franz Aman), директор по маркетингу и главный стратег SGI. – "Нам нравится пользоваться Google Earth из-за возможности уменьшать масштаб и видеть общую картину. С SGI UV 2 мы можем использовать ту же концепцию применительно к "Большим данным" (Big Data), чтобы получать общую картину наших Больших данных".

На базе такого анализа можно выделить четыре периода роста Википедии в плане исторического охвата: 1001-1500 (Средние века), 1501-1729 (Новое время), 1730-2003 (Эпоха просвещения), 2004-2011 (Эра Википедии), и продолжение этого роста, по-видимому, сфокусировано на улучшении описания исторических событий, а не на усиленном документировании настоящего. Средняя тональность в описании Википедией каждого года тесно соотносится с крупными глобальными событиями. При этом наиболее негативный период за последние 1.000 лет приходится на Гражданскую войну в Америке, за которой идет Вторая мировая война. Анализ также показывает, что обусловленный копирайтом пробел, выражающийся в отсутствии большей части двадцатого века в оцифрованных печатных собраниях, не является проблемой для Википедии, где наблюдается устойчивый поступательный рост в освещении этого периода, начиная с 1924 года до сегодняшних дней.

Исследователи могут добывать Большие данные со скоростью Больших данных

"Односторонность связей в Википедии, отсутствие ссылок и неравномерное распределение инфобоксов – все это указывает на наличие ограничений для добычи данных из собраний типа Википедии с опорой на метаданные", - сказал Леетару. – "В случае с SGI UV 2 наличие огромной общей памяти позволило мне относить вопросы ко всему массиву данных в режиме близком к реальному времени. Имея в своем распоряжении огромный объем кэш-когерентной общей памяти, я мог просто написать несколько строк кода и пройтись по всему набору данных, задавая любые приходящие мне в голову вопросы. Это невозможно при использовании метода горизонтального масштабирования. Это все равно что использовать текстовый процессор вместо пишущей машинки: я могу вести свои изыскания совершенно иным способом, концентрируясь на результатах, а не на алгоритмах".

Аналитический подход

Этот огромный массив данных, загруженный в суперкомпьютер SGI® UV™ 2000, подвергся геокодированию и кодированию дат с охватом всех текстов. При этом использовались алгоритмы для выявления всех упоминаний каждого места и каждой даты в тексте каждой статьи Википедии. Было экстрагировано свыше 80 млн. мест и 42 млн. дат за период с 1000 года нашей эры до 2012 года. В среднем это 19 мест и 11 дат на статью (каждые 44 слова и каждые 75 слов соответственно). Связи между каждой датой и каждым местом были зафиксированы в громадной сети, представляющей взгляд Википедии на историю. С таким инструментарием Леетару смог провести в масштабе времени, близком к реальному, анализ всего массива данных на SGI UV 2, чтобы создать визуальные карты во времени и пространстве и увидеть не только то, как разворачивалась история, но и изменение общего настроя мира на протяжении последнего тысячелетия. Он также смог провести интерактивное тестирование широкого спектра теорий и стоящих перед исследователями вопросов, и все это заняло менее одного дня.

Новый SGI UV: компьютер большого ума

Семейство продуктов SGI UV 2 позволяет пользователям находить ответы на самые сложные в мире проблемы при помощи системы, которой столь же проста в администрировании, как и рабочая станция. SGI UV 2, работающий на процессорах семейства Intel® Xeon® E5 со стандартной версией Linux и поддерживающий широкий спектр опций хранения, представляет собой полное, соответствующее отраслевым стандартам решение для ничем не лимитированных вычислений.

Имея всего 16 ядер и 32 гигабайта памяти, SGI UV 2 может начинать с малого и беспроблемно расширяться. Эта платформа нового поколения удваивает количество ядер (до 4096 ядер) и учетверяет объем когерентной основной памяти (до 64 терабайт) по сравнению с предыдущим поколением, используемым для вычислений in-memory в системе с единым представлением вычислений. SGI UV 2 может быть масштабирован до восьми петабайт общей памяти и на пиковой скорости ввода-вывода в четыре терабайта в секунду (14 PB/час) способен менее чем за три секунды вобрать в себя все содержимое собрания печатных изданий Библиотеки Конгресса США.

SGI UV 2000 уже есть в продаже. Заказ на SGI UV 20 можно оформить сегодня, поставки начнутся в августе 2012 года.

SGI

Признанный лидер в области технических вычислений компания SGI стремится помогать своим клиентам в решении самых сложных задач в сферах бизнеса и технологий.

© 2012 Silicon Graphics International Corporation. SGI и логотип SGI являются товарными знаками или зарегистрированными товарными знаками Silicon Graphics International Corp. или ее дочерних компаний в США и/или других странах. Intel и Xeon являются зарегистрированными товарными знаками Intel Corporation. Все остальные коммерческие обозначения и товарные знаки являются собственностью соответствующих владельцев.


Ньюсмейкер: Silicon Graphics International Corporation
Поделиться:

Интересно:

Саморазвитие в фокусе: что читали российские менеджеры в 2024 году?
26.12.2024 02:04 Аналитика
Саморазвитие в фокусе: что читали российские менеджеры в 2024 году?
Российские управленцы сегодня активно инвестируют в собственное образование и профессиональный рост. Корпоративная библиотека Alpina Digital помогает им быть в курсе трендов и получать знания от ведущих мировых экспертов. Ежегодно в декабре мы публикуем рейтинг материалов, которые были наиболее...
«Будь Здоров» оценили проекты студентов ГУУ
26.12.2024 00:04 Мероприятия
«Будь Здоров» оценили проекты студентов ГУУ
В декабре в бизнес-центре Государственного университета управления при поддержке АНО «Платформа Национальной технологической инициативы» прошел Демо-день акселерационной программы «Технологии здоровой жизни 2.0», в рамках которого участники представили свои проекты, в числе которых – мобильные...
В странах СНГ свято чтят подвиг народов СССР, ковавших победу в ВОВ
25.12.2024 15:29 Новости
В странах СНГ свято чтят подвиг народов СССР, ковавших победу в ВОВ
В странах Содружества помнят и свято чтят бессмертный подвиг наших народов, народов всего Советского Союза, которые, сражаясь плечом к плечу, ковали победу в Великой Отечественной войне. Об этом заявил Президент России Владимимр Путин на неформальной встрече глав государств...
Юные москвичи рассказали об участии в первой антарктической экспедиции
25.12.2024 11:20 Новости
Юные москвичи рассказали об участии в первой антарктической экспедиции
Разбить палатку на краю света и изучить многолетние льды — для столичных школьников и студентов нет ничего невозможного. В конце ноября они отправились в Московскую молодежную антарктическую экспедицию, которая длилась 21 день. Как ребята провели время...
День взятия турецкой крепости Измаил Александром Суворовым
24.12.2024 16:27 Аналитика
День взятия турецкой крепости Измаил Александром Суворовым
24 декабря отмечается День воинской славы России - День взятия турецкой крепости Измаил русскими войсками под командованием А.В. Суворова (1790 год). Это произошло в ходе русско-турецкой войны 1787-1791 года.  Накануне штурма Измаила генерал-аншеф граф А.В. Суворов-Рымкинский, который был...