• Главная
  • Карта сайта
Не найдено

OLAP-аналіз відвідуваності Web-сайту

Корпоративний Web-сайт - важливий засіб інформування покупців про товари і послуги, що пропонуються компанією, тому аналіз його відвідуваності (click-stream analysis) є досить актуальною проблемою. Наявні на ринку продукти та послуги, призначені для цієї мети, можна розділити на три класи.

Аналізатори журналу сервера в режимі реального часу, як правило, представляють собою Java-аплети, які читають в реальному часі журнал Web-сайту і формують на HTML-сторінці кілька звітів. Існує ряд безкоштовних продуктів, таких, як відомі системи Analog або WebStat. Ці рішення застосовні для журналів відносно невеликого розміру і підходять для користувачів зі скромними потребами.

Аналітичний сервіс, пропонований в оренду на сайті третьої фірми. Компанія-клієнт повинна розташувати на своєму сайті спеціальний скрипт - "шпигун" (spider), який отримує інформацію від Web-браузерів відвідувачів і посилає її на сайт постачальника сервісу, де ця інформація записується в загальну базу даних. При вході на свою сторінку цього сайту компанія - користувач сервісу може виконувати параметризрвані запити і отримувати звіти заданої форми. Популярний приклад такого сервісу на Заході - система WebTrends компанії NetIQ, а в Росії - SplyLog однойменної фірми.

Коробкові продукти масштабу підприємства - набори модулів, що встановлюються на Web-сайті та в локальній мережі компанії. Вони дозволяють накопичувати і аналізувати великі обсяги даних про роботу відвідувачів з Web-сайтом.

Рішення на базі OLAP-інструментів

Власнику Web-сайту перш за все потрібно знати, як змінюється кількість відвідувачів, які сторінки і серед яких груп користувачів були найбільш популярні за той чи інший період і т. П. Інакше кажучи - отримувати підсумки відвідуваності сайту в різних розрізах. Але це класична задача OLAP-аналізу, і при наявності даних подібні запити з різноманітною фільтрацією і угрупованнями c застосуванням OLAP-інструментів можна виконувати багаторазово і миттєво отримувати відповіді. У термінах OLAP ім'я сторінки, ім'я відвідувача і період будуть вимірами, а кількість запитів - фактами.

"Контур-стандарт" дозволяє відстежити динаміку заходів користувачів з пошукових сайтів

Цілком природно, що більшість постачальників OLAP-продуктів пропонують рішення для аналізу відвідуваності Web-сайтів * 1. У базі даних, що фіксує запити відвідувачів, накопичується величезний обсяг інформації за тривалі періоди, яка використовується тільки для того, щоб можна було швидко отримувати і аналізувати великі вибірки даних. Таким чином, є всі ознаки класичного сховища, тому, як правило, комплекси постачальників OLAP-рішень включають в себе засоби вилучення, очищення і завантаження даних (Extract, Transformation, Loading - ETL), саме сховище і OLAP-інструмент для аналізу інформації.

_____

* 1. Детальніше про класифікацію OLAP-продуктів див. Статтю В. Некрасова "OLAP, зроблено в Росії" в PC Week / RE, № 3/2001, с. 21.

Наприклад, корпорація Oracle поставляє коробковий продукт масштабу підприємства Oracle9iAS Clickstream Intelligence, що включає в себе СУБД Oracle9i, сервер додатків Oracle9i Application Server, засіб створення сховищ і вітрин даних Oracle Warehouse Builder 2.1.1, а як засіб аналізу - OLAP-клієнт Oracle Discoverer. Цей продукт дозволяє одночасно аналізувати дані декількох Web-сайтів підприємства.

А компанія Microsoft пропонує рішення Clickstream analytics for the Microsoft business intelligence platform, в рамках якого користувачам рекомендується застосовувати такі продукти, як Інтернет-сервер MS Commerce Server, СУБД MS SQL для побудови сховища даних і OLAP-сервер MS Analysis Services для побудови багатовимірних вітрин даних ; при цьому засобом аналізу може служити електронна таблиця MS Excel з вбудованим в неї OLAP-компонентом PivotTable або комплект COM-компонентів Office Web Components.

У цій статті розповідається про досвід створення вітчизняної системи аналізу відвідуваності сайту на основі OLAP-клієнта "Контур-Стандарт" компанії Intersoft Lab1 (www.iso.ru).

Джерела даних для аналізу

Найдоступнішим і повним джерелом даних для аналізу роботи сайту є стандартний журнал Інтернет-сервера, що містить такі поля, як IP-адреса, дата, час, ім'я запитуваного ресурсу, статус запиту, сторінка, звідки прийшов відвідувач, тощо. З цієї причини він і був обраний в якості джерела даних для системи "Контур-Стандарт".

Щоб забезпечити високу інтерактивність роботи користувача зі звітами, було вирішено зберігати журнал в спеціальній базі даних. Для цієї пропозиції був розроблений скрипт на мові Python - "мігратор", який із заданою періодичністю копіює нові записи журналу в БД MS SQL Server, що знаходиться в локальній мережі компанії. Він і став ETL-інструментом.

Незважаючи на гадану ваговитість, це рішення дуже просто в реалізації і при максимальній швидкості виконання запитів породжує мінімальний трафік, т. Е. Є економічним.

На основі OLAP- аналізу виявляються найбільш популярні сторінки сайту

Дані в процесі копіювання можуть доповнюватися. Наприклад, по IP-адресою визначається не тільки ім'я хоста, але і географічне розташування користувача: скрипт виконує запит до однієї з Інтернет-баз даних, що зберігає зарезервовані діапазони IP-адрес (скажімо, www.ripe.net/perl/whois). Щоб можна було в звіті код країни перетворити в назву, в базу даних доданий довідник країн, пов'язаний з таблицею журналу.

Крім того, визначається тип сервера, з якого користувач прийшов на сайт: пошукова машина, група новин, який посилається і власний сайти. У таблицю журналу додається поле "Категорія посилається сервера" і пов'язаний з ним довідник, а також поле "посилатися сервер", куди записується ім'я сервера, вичленення із заслання.

Для кожної категорії посилаються серверів виконується власний аналіз. Для пошукових машин - ефективність кампанії з розміщення посилань на сайт і індексації сайту. Для посилаються серверів - продуктивність рекламної кампанії, відгук громадськості і конкурентів на проведені заходи, популярність брендів фірми і т. Д. Для новинних груп - поширеність продуктів в різних спільнотах користувачів. Для власного сайту - популярність сторінок і типові маршрути відвідувачів. Скажімо, з рядка посилання для пошукових машин виділяються ключові слова, які для зручності дублюються "мігратор" в окреме поле таблиці журналу. Це дозволяє проаналізувати області цілеспрямованих інтересів відвідувачів, а також відповідність цим інтересам мета-тегів і контента сайту.

Якщо категорію сайту, що посилається відфільтрувати за значенням "наш сайт", то посилаються стануть показувати маршрут руху відвідувача. Можна побудувати класичну реляційну ієрархію "батько - дитя" з двох полів таблиці. У кожного запису в поле "Батько" буде розташована перша посилання, а в поле "Дитя" - сторінка, на яку перейшов відвідувач з батьківської сторінки. Таку ієрархію можна "розкручувати" в звітах різними способами. Зокрема, OLAP-система може показати найпопулярніших "Батьків", що присилають відвідувачів на сторінку "Замовлення продукту". Справедливості заради треба сказати, що найбільш повний аналіз навігації відвідувачів надають системи видобутку даних (data mining). Крім того, ця задача змикається з CRM-аналізом, що було відзначено багатьма постачальниками; зокрема, продукт WebTrends CommerceTrends компанії NetIQ був інтегрований з відомою CRM-системою Siebel.

В результаті цих модифікацій база даних журналу перетворилася на повноцінну вітрину даних, побудовану за класичною схемою "зірка". Для різних видів звітів були розроблені спеціальні вистави (view). Наприклад, уявлення кількості унікальних відвідувачів містить описові поля - характеристики відвідувача, дату. При цьому запити користувача виключаються і створюється поле-лічильник як вираз Select 1 AS counter. Таким чином забезпечується унікальність запису про одне користувача за одну дату.

Створення OLAP-додатки

Для отримання аналітичного додатки система "Контур-Стандарт" налаштовується на БД, у якій потім в спеціальному інтерфейсі без програмування описуються запити і на їх основі створюються OLAP-звіти.

Специфіка OLAP-технології така, що всі звіти для аналізу сайту можуть бути реалізовані як один звіт з безліччю вимірів (хост, дата, запит, посилання) і трьома фактами (кількість унікальних відвідувачів, кількість запитів, обсяг завантаження). Міняючи місцями колонки звіту і встановлюючи різні фільтри, аналітик може сам отримати всю потрібну інформацію. Однак користуватися таким звітом незручно. Тому був зроблений набір інтерактивних звітів, необхідних для аналізу комерційного сайту: "Унікальні відвідувачі" (динаміка відвідувань сайту), "Географія відвідувачів" (країни і міста, звідки приходять користувачі), "Відвідувані сторінки" (що люди дивляться?), "Посилаються сайти "(дозволяє оцінити дієвість маркетингової кампанії - ефективність банерної реклами, віддачу від розміщення інформації в Інтернет-каталогах, виявити публікації прес-релізів в електронних ЗМІ)," Пошукові машини і слова ". Цей набір не є кінцевим, у міру необхідності в нього можна додавати і інші звіти.

Останнім часом найбільші пошукові машини пропонують свої послуги на комерційній основі. Зараз для того, щоб проіндексувати сайт, потрібно або чекати кілька місяців, або платити за термінове розміщення. Тому такий звіт може послужити і для оцінки повернення інвестицій у просування сайту.

висновок

Отже, в чому переваги застосування OLAP-технології при аналізі відвідуваності сайту?

По-перше, знімаються зовнішні обмеження на розмір аналізованої бази даних і склад звітів. Можна досліджувати дані, накопичені за будь-який проміжок часу. Нові довільні OLAP-звіти створюються швидко і без програмування.

По-друге, користувачі можуть постійно і без оглядки на розробника сервісу розширювати поле і логіку аналізу. Наприклад, модифікуючи "мігратор", можна збільшити склад аналізованих показників, застосувати складні алгоритми розрахунку відсутніх даних і побудувати на їх основі нові інформаційні зрізи.

У порівнянні з іншими OLAP-рішеннями описана реалізація є однією з найпростіших і недорогих. Вона включає в себе три елементи: відносно нескладний скрипт для трансформації й завантаження даних, реляційну вітрину даних на MS SQL-Server і клієнтську OLAP-систему.

З автором, технічним директором компанії Intersoft Lab, можна зв'язатися по e-mail: [email protected].

Версія для друку

Тільки зареєстровані користувачі можуть залишати коментарі.

О люди дивляться?
Провайдеры:
  • 08.09.2015

    Batyevka.NET предоставляет услуги доступа к сети Интернет на территории Соломенского района г. Киева.Наша миссия —... 
    Читать полностью

  • 08.09.2015
    IPNET

    Компания IPNET — это крупнейший оператор и технологический лидер на рынке телекоммуникаций Киева. Мы предоставляем... 
    Читать полностью

  • 08.09.2015
    Boryspil.Net

    Интернет-провайдер «Boryspil.net» начал свою работу в 2008 году и на данный момент является одним из крупнейших поставщиков... 
    Читать полностью

  • 08.09.2015
    4OKNET

    Наша компания работает в сфере телекоммуникационных услуг, а именно — предоставлении доступа в сеть интернет.Уже... 
    Читать полностью

  • 08.09.2015
    Телегруп

    ДП «Телегруп-Украина» – IT-компания с 15-летним опытом работы на рынке телекоммуникационных услуг, а также официальный... 
    Читать полностью

  • 08.09.2015
    Софтлинк

    Высокая скоростьМы являемся участником Украинского центра обмена трафиком (UA — IX) с включением 10 Гбит / сек... 
    Читать полностью