АНАЛІЗ ВМІСТУ ВЕБСТОРІНОК ІЗ ЗАСТОСУВАННЯМ ЧАСТОТНОЇ МОДЕЛІ ТЕКСТУ

  • S. V. Dykhanov Дніпровський національний університет імені Олеся Гончара
Ключові слова: вебсайт, векторна модель, метрика TF-IDF, кластеризація, метод k-середніх, реінжиніринг

Анотація

Розглядається задача кластерізації сторінок вебсайту на основі аналізу їх текстів методом k-середніх. Для зображення тексту застосовано векторну модель та метрику TF-IDF. Для вилучення текстів застосовано структурний підхід до аналізу HTML документів на основі тегів. Результати кластерізації можуть бути застосовані для покращення логічної будови сайту та формулювання рекомендацій для реінжинірингу.

Переглядів анотації: 22
Завантажень PDF: 26
Опубліковано
2023-01-01