Pers.narod.ru. Наука. Интернет-ресурсы. Заключение

Выполненные исследования позволяют выделить ряд направлений развития глобальных информационных ресурсов.

К традиционным техническим решениям относятся снижение стоимости систем хранения данных, появление программных средств удаления избыточных данных и их фильтрации, внедрение комплексного и упорядоченного подхода к хранению информации, в частности, технологии управления жизненным циклом информации (Information Lifecycle Management, ILM), сервисно‑ориентированного программирования, отделение данных от инфраструктуры их хранения, развитие существующих метаязыков и языков разметки (UML, XML, XTML, HTML).

Заслуживающим внимания подходом представляется развитие альтернативных глобальных инфраструктур, таких как сеть Интернет‑2, разработка которой ведется с 1992 года. Изначально структурированная информация, использование защищенных протоколов передачи данных и высокоскоростных каналов связи способны во многом решить проблемы сегодняшней глобальной сети. Однако современное состояние Интернет‑2 показывает, что основная проблема сети оказывается схожей и состоит в поиске "меры ценности" добавляемой информации, обеспечивающей ее первичность, релевантность и ценность для пользователей. Если государственные и оборонные структуры в настоящее время справляются со своими информационными задачами во многом за счет отсечения соответствующих сетей от глобальной, то рядовому пользователю остается рассчитывать лишь на совершенствование существующей сети Интернет и своих навыков в работе с ней.

Развитие поисковых систем и технологий в настоящее время можно связать, прежде всего, с концепциями семантического веб, реализующего поиск информации по смыслу, а не лексемам, построением предметных онтологий и информационно‑поисковых языков с опорой на имеющиеся стандарты ИСО и ГОСТ. Второе направление развития - создание в сети "островков стабильности", поддерживающих некоторые стандарты как на структурирование и поиск информации, так и на стандартизованное создание порталов хотя бы по узкоспециальным вопросам.

При относительно небольших по объему для современных вычислительных систем тезаурусах естественных языков крайне низкая релевантность отбора действующих ИПС, вызвана как проанализированными недостатками организации сайтов, так и большим объемом и высокой избыточностью сведений, хранящихся в индексах ИПС, крайне высокой цитируемостью, трудностями отбора первичных документов, а также сознательным "замусориванием" выдачи путем искусственного повышения релевантности создаваемых страниц и большим объемом дезинформации, вторичных и искаженных данных в сети. Если отсутствие централизации и единой структуры данных представляется неустранимым на данном этапе развития информационных технологий недостатком, то внедрение стандартизованного размещения научно‑технической информации - проблема вполне решаемая.

Поэтому существенной является необходимость внедрения информационно‑поисковых тезаурусов (ИПТ) на основе существующих стандартов, а также включение в поисковые системы базовых смысловых отношений.

Как минимум, разрабатываемый тематический ИПТ должен содержать следующие компоненты:

·                     словарь терминов (ключевых слов) данной предметной области. Требования к ключевым словам и терминам определены стандартом;

·                     словарь стоп‑слов, исключаемых из индекса из-за нерелевантности или по цензурным соображениям;

·                     словарь меток, определяющих базовые понятия для разрешения многозначных терминов, включающий такие понятия, как процесс, место, вещество и т.д.;

·                     для дескрипторов в индексе определяются отношения синонимии, для аскрипторов (неиспользуемых в поисковом образе ключевых слов) могут быть установлены связи к дескрипторам, заменяющим аскриптор либо альтернативно, либо совместно в качестве комбинации дескрипторов;

·                     определяются родо‑видовые отношения понятий, устанавливающих связь между двумя дескрипторами, если объём понятия одного входит в объём другого, родственные отношения "часть‑целое", как вхождение друг в друга не понятий, а обозначаемых ими объектов, ассоциативные связи между дескрипторами, значения которых "напоминают" друг друга. При этом ассоциация по смежности устанавливается между дескрипторами, когда обозначаемые ими объекты имеют общие части (например, общее пространство), ассоциация по сходству устанавливается, когда значения дескрипторов имеют общие формы;

·                     другие отношения, важные для конкретной практики, при условии их точного описания.

Добавив в тезаурус дополнительные базовые смысловые отношения терминов, такие как часть-целое, причина-следствие, свойство-носитель, процесс-инструмент и т.п., мы обеспечиваем пользователям возможность формулировать поисковые образы логически сложных запросов, например, "найти документы, в которых объект A является носителем свойства B при условии C".

Еще более существенно то, что в системе, обладающей развитым ИПТ, появляется возможность автоматизации логических выводов. На практике элементы ИИ пока внедряются лишь в вопросно-ответные системы, подобные отечественной разработке Neiron.

Совершенствование имеющихся технологий связано со следующими направлениями деятельности:

·                     обучение пользователей работе с информационно‑поисковым языком (ИПЯ), стандартизация ИПЯ на международном уровне;

·                     использование в создаваемых ИПС нескольких альтернативных критериев релевантности, технологий "взвешивания" дескрипторов и эшелонирования выдачи. Поскольку от конкретной формулы расчёта релевантности, принятой в ИПС, существенно зависит эффективность поиска, единицей выдачи следует считать документ, а не сайт (в сегоняшней выдаче малорелевантны мультитематические ресурсы);

·                     стандартизация и повсеместное использование тегов описаний не‑вербального контента, таких как распространенные для описания музыкальных композиций id3‑теги;

·                     расширение существующих стандартов разметки фильтрующими микроформатами, позволяющее структурировать информацию непосредственно со стороны авторов;

·                     развитие альтернативных технологий сбора информации, основанных на позиционировании документа в пространстве категорий, классификационных алгоритмах, генетических алгоритмах, вопросно‑ответном поиске на основе ситуативно‑реляционной модели текста, согласно которой смысл предложения определяется по совокупности синтатико‑семантических единиц языка (синтаксем) и отношений на них;

·                     централизованные тематические сервера по прикладным дисциплинам знания, построенные в соответствии со стандартами.

В основу концепции тематического портала закладываются две части с одинаковыми программными компонентами - внутренняя административная часть, представляющая собой неизменяемое ядро системы и отвечающая за информационное взаимодействие, подготовку и подписание информации и внешняя периферийная часть, построенная на блочно‑модульной концепции с перепрограммируемыми частями и решающая задачи информирования пользователей с предоставлением им интерактивных сервисов.

Предлагается следующая схема 10 подсистем тематически ориентированного портала, связанного с образовательной и исследовательской деятельностью:

·                     подсистема публикаций (обеспечение жизненного цикла информационного объекта (ИО),маршрутизация ИО, поддержка метаописаний ИО);

·                     подсистема таксономии (многомерный рубрикатор, ИО описывается несколькими классами);

·                     подсистема электронной библиотеки (хранение, архивирование, представление содержимого ИО);

·                     подсистема дискуссий (форумов);

·                     подсистема поиска (полнотекстовый многокритериальный поиск на основе ИПТ);

·                     подсистема уведомлений (рассылки, автоуведомления об обновлениях);

·                     подсистема обмена (импорт и экспорт ИО);

·                     подсистема хранения данных (централизованное управление единым хранилищем данных);

·                     подсистема мониторинга и управления (статистика, рейтинги, технический мониторинг оборудования);

·                     подсистема аутентификации, авторизации и управления пользователями (права, группы, безопасность, персонализация).

Можно заключить, что стандартизованная глобальная иноформационно‑поисковая система и стандартизованный тематический портал для исследовательских и образовательных целей являются двумя наиболее акутальными к развитию типами ресурсов Интернет.

 

Рейтинг@Mail.ru

вверх гостевая; E-mail
Hosted by uCoz