Ви є тут

«ЦИФРОВІ СТУДІЇ»

Про сучасні підходи до публікації цифрових зображень музейних та архівних пам’яток йшлося у попередньому випуску нашої рубрики «Цифрові студії».

Проте у цифровій гуманітаристиці важливий не так зовнішній вигляд певного джерела, як можливість автоматизувати обробку даних, про які воно розповідає.

Відтак постає питання: як здійснити цей магічний перехід від цифрового зображення до перекладеного на мову машини змісту документа? І тут йдеться не просто про машинне розпізнавання текстів – доволі тривіальне на сьогодні завдання, алгоритми розв’язання якого стають дедалі досконалішими.

Насамперед це питання можливості навчити машину працювати з сенсом, розрізняти та опрацьовувати певні семантичні конструкції.

Очевидно, інтерпретація текстів документів, їхнє тлумачення, контекстний аналіз, визначення семантичного навантаження окремих елементів та зв’язків між ними – справа, яку може здійснити лише сам дослідник відповідно до поставленої мети та завдань своєї роботи.

Однак формалізовані й у спеціальний спосіб описані семантичні конструкції стають доступними для автоматизованої машинної обробки: семантичного пошуку даних, аналізу відносин між різними сутностями, динамічної візуалізації зв’язків тощо. Особливо такий функціонал стає в пригоді під час роботи з великими масивами розрізнених, гетерогенних матеріалів, що пов’язані певною тематикою.

Тому важливим аспектом цифрової публікації писемних джерел сьогодні, поряд із оприлюдненням їхніх зображень, є удоступнення їхніх машинописних текстів із спеціальною формалізованою семантичною розміткою.

Остання дає змогу в стандартизованому вигляді фіксувати смислову інформацію, семантику окремих елементів, що є важливими, на думку дослідника, який готує джерело для публікації. До того ж завдяки семантичній розмітці можливо оформлювати контекстні посилання на зовнішні пов’язані ресурси: інші документи або довідники (персоналій, подій тощо).

Одним із найбільш популярних сьогодні стандартів семантичної розмітки текстів історичних джерел є формат TEI (Text Encoding Initiative, https://tei-c.org). Його розвиває та підтримує фахова спільнота понад 30 років. Із середини – другої половини 1990-х років рекомендації TEI широко використовують архівні, музейні та бібліотечні інституції, видавці та окремі науковці для цифрової публікації різноманітних текстів та їх подальшого аналізу.

Стандарт TEI передбачає широкий спектр спеціалізованих наборів тегів для метаопису джерел різного типу: рукописних, друкованих, візуальних (графічних). Містить рекомендації щодо схем семантичної розмітки для різних дослідницьких завдань та різних жанрів: друкованих документів і давніх рукописів, офіційних документів і особистих щоденників, прозових і віршованих творів тощо.

Зокрема, в межах розбудови платформи цифрової публікації джерел з історії Національного заповідника «Києво-Печерська лавра» з метою базової семантичної розмітки писемних документів 1920-х – 1930-х років використовують рекомендації стандарту TEI щодо позначення відомостей, пов’язаних із певними подіями, їхніми учасниками – організаціями та окремими персоналіями із зазначенням відповідних контекстних ролей. Фіксуються деякі характеристики самих документів, їхніх структурних елементів, виправлень, позначок тощо, які є важливими для їхнього тлумачення.

Застосування формату TEI як інструменту семантичної розмітки також уможливило ефективно вирішити питання вибору спеціалізованого програмного забезпечення для безпосередньої публікації текстів джерел, про що ми детальніше розповімо у наступній публікації.

Підготувала Анастасія Чередниченко