Indeksowanie przez wyszukiwarki a zbiory zastrzeżone

Dyskusje Fora Instalacja Indeksowanie przez wyszukiwarki a zbiory zastrzeżone

Ten temat zawiera 1 odpowiedź, ma $s, i został ostatnio zaktualizowany przez  Mateusz Neumann 5 lata, 6 miesiące temu.

Przeglądają 12 wpisy - 1 przez 12 (z 12 w sumie)
  • Autor
    Wpisy
  • #133

    Oliwier Sadlik
    Członek

    Cześć,

    słowem wstępu… utworzyliśmy w Repozytorium eRIKA zbiór zastrzeżony (wgląd po zalogowaniu, tylko dla administratorów) służący nam jako archiwum prac dyplomowych z zamiarem przekazywania ich do POL-on’u, a konkretnie do Ogólnopolskiego Repozytorium Prac Dyplomowych (ORPD). Pozycje w zbiorze, ani ich metadane, ze względu na ochronę danych osobowych nie mogą być indeksowane.

    Kłopot polega na tym, że udostępniając prace do POL-on’u automatycznie staną się one również dostępne dla wyszukiwarek. Czy istnieje jakiś sposób by to w DSpace’ie obejść?

    Dodam, że obecnie działamy na wersji 3.1, ale lada dzień planujemy migrację na 5.1.

    #134

    Mateusz Neumann
    Klucznik

    Cześć

    Dowiedziałem się jak od strony technicznej może wyglądać proces importu danych do ORPD. Jest opisany w tym dokumencie. Znalazłem również dokumentację importu masowego przygotowaną przez autorów implementacji. Do ORPD dane można wprowadzać na trzy sposoby:

    1. za pomocą interfejsu WWW
    2. za pomocą interfejsu typu „PUSH”
    3. poprzez udostępnienie serwera OAI

    O ile dwa pierwsze sposoby w żaden sposób nie dotyczą DSpace (nie wymagają żadnej ingerencji w konfigurację Państwa serwisu) gdyż wprowadzanie danych do ORPD odbywa się bądź „ręcznie”, bądź poprzez import „paczek” zapisanych zgodnie z udokumentowanym formatem plików, o tyle trzeci sposób wymusza pewne otwarcie dotychczas zamkniętego przez Państwa zbioru.

    Czy faktycznie zamierzacie Państwo skorzystać z trzeciej opcji? Czy planujecie udostępniać dane za pośrednictwem serwera OAI?

    #135

    Mateusz Neumann
    Klucznik

    … jeśli DSpace ma służyć jako źródło importu danych do ORPD za pośrednictwem protokołów OAI-PMH i OAI-ORE, a nie chcecie Państwo udostępniać tych danych „całemu światu”, należy ograniczyć dostęp do serwisu obsługującego protokoły OAI w DSpace tylko serwerom ORPD. Pisze zresztą o tym również autor dokumentu „ORPD – Źródła danych i zasilanie danymi”:

    W przypadku pobierania prac z archiwum uczelnianego używana jest autoryzacja wg. Numerów IP, uczelnia uzyskuje informację z jakiego IP będzie łączyć się ORPD i umożliwia mu korzystanie ze swoich zasobów.

    Aby uruchomić autoryzację wg. numerów IP w DSpace należy postępować zgodnie z krokami opisanymi w tej części dokumentacji DSpace 3.x lub analogicznej w przypadku używania DSpace 5.x.

    W skrócie należałoby:

    • skonfigurować „Stackable Authentication” w DSpace: plugin.sequence.org.dspace.authenticate.AuthenticationMethod = org.dspace.authenticate.IPAuthentication, org.dspace.authenticate.PasswordAuthentication
    • utworzyć grupę np. ORPD, z przypisanym do niej adresem IP, np.: ip.ORPD = 10.1.2.3
    • nadać tej grupie prawo do odczytu „zamkniętego” zbioru/kolekcji (w zakładce „Przypisz role” formularza edycji kolekcji)

    Nie jestem pewien czy wyjaśniłem Pańskie wątpliwości – w razie czego proszę pytać dalej

    • Ta odpowiedź została zmodyfikowana 5 lata, 6 miesiące temu przez  Mateusz Neumann.
    #138

    Rafal Kopaczka
    Członek

    Cześć,

    uzupełniając pytanie kolegi. Początkowo planowaliśmy ładować dane przez protokół OAI-PMH i OAI-ORE, tak jak Pan pisał w poście wyżej. Pojawiają się jednak przy tej okazji spore komplikacje związane właśnie z udostępnianiem danych przy użyciu jakiejkolwiek autoryzacji. O co chodzi dokładnie: serwer OAI w DSpace, nie ma mechanizmu autoryzacji i udostępniania danych wg określonych reguł, jak ma to miejsce w interfejsie WWW. Według mojej wiedzy, a chciałbym się mylić :), pozycje zastrzeżone można udostępniać przez protokół bądź nie. Co jest udostępnianie przez OAI ustalana jest już na etapie indeksowania, opcja:
    harvest.includerestricted.oai określa czy pozycje zastrzeżone mają być dodane do indeksów czy pomijane.
    Pytanie właściwe więc, to czy serwer OAI umożliwia udostępnianie wybranych kolekcji/zbiorów dla ograniczonej grupy.

    Co do „Stackable Authentication”, z moich doświadczeń wynika, że używany jest do logowania przez interfejs WWW, a w ten sposób ORPD nie pobierze danych(?).
    Można blokować dostęp, bezpośrednio przez serwer do ścieżki /oai dla wybranego IP, ale w ten sposób zablokujemy dostęp wszystkim innym agregatorom.

    Mój wczesny pomysł na rozwiązanie tego problemu, jest taki żeby dodać do DSpace, drugi serwer OAI, który indeksował by tylko te zastrzeżone pozycje. Następnie umożliwić do niego dostęp tylko z IP ORPD.
    Czy ktoś z Was próbował robić coś takiego? Jakieś rady, pomysły? Może da się inaczej to zrobić?

    #139

    Oliwier Sadlik
    Członek

    Moje wątpliwości rozeszły się w pył, nie wiem jak z wątpliwościami naszego informatyka, pewnie się odezwie. Tak czy inaczej, dziękuję za pomoc 🙂

    #140

    Mateusz Neumann
    Klucznik

    Na poziomie serwera WWW można zablokować dostęp wyszukiwarkom korzystając z pliku robots.txt (pisałem o tym wczoraj w mailu). Inna sprawa, że „rozbójnicze pająki” mogą zawartość tego pliku ignorować. Nie jest to więc rozwiązanie zapewniające wystarczające bezpieczeństwo.

    Spróbuję w tym tygodniu jeszcze sprawdzić jak zachowuje się serwis OAI w DSpace 5.x. Wydawało mi się, że brał już pod uwagę konfigurację uprawnień (autentykacji/autoryzacji), ale jeszcze to sprawdzę.

    Jeśli OAI w najnowszej wersji nie używa mechanizmów ograniczania dostępu, wówczas faktycznie najwygodniejszym rozwiązaniem będzie uruchomienie dwóch serwisów OAI.

    #141

    Rafal Kopaczka
    Członek

    Na poziomie interfejsu WWW i tak mamy zablokowane wszystkie deponowane prace dyplomowe, zatem roboty nam nie straszne 🙂

    Największym problemem jest OAI, jeżeli nie zablokujemy dostępu do zdeponowanych prac dyplomowych, to będą one dostępne również w FBC i innych agregatorach, co nie jest najlepszym pomysłem 🙂

    Wg dokumentacji:
    OAI-PMH Data Provider 2.0 (Internals)#1.3 Access control
    Możliwe jest tylko zarządzanie dostępem przy użyciu metod HTTP, po uwierzytelnianiu via HTTP, dostęp do serwisu jest anonimowy. Nie jestem pewien czy to w ogóle nie wynika ze specyfikacji OAI.

    #142

    Mateusz Neumann
    Klucznik

    Czyli faktycznie z rozsądnych rozwiązań pozostaje tylko drugi serwis…

    FYI. W DSpace 6.x póki co sprawa wygląda dokładnie tak samo:

    OAI provides no authentication/authorisation details, although these could be implemented using standard HTTP methods. It is assumed that all access will be anonymous for the time being.

    A question is, is all metadata public? Presently the answer to this is yes; all metadata is exposed via OAI-PMH, even if the item has restricted access policies. The reasoning behind this is that people who do actually have permission to read a restricted item should still be able to use OAI-based services to discover the content. But, exposed data could be changed by changing the XSLT defined at [dspace]/config/crosswalks/oai/metadataFormats.

    #143

    Mateusz Neumann
    Klucznik

    Ponadto za użyciem osobnego serwisu OAI przemawia jeszcze fakt, że klient OAI użyty w ORPD nie ma chyba opcji wyboru zbioru (set) pobieranych prac, a więc ORPD próbowałby pobrać wszystkie prace w Waszym repozytorium (inna sprawa czy by mu się to udało z powodu wymagań odnośnie metadanych).

    #144

    Rafal Kopaczka
    Członek

    To fakt, ale gdyby była możliwość autoryzacji…
    No cóż nie uniknę niestety zabawy z dodatkowym serwisem. Czy ktoś robił kiedyś coś takiego? Na pierwszy rzut oka, wygląda że trochę pracy z tym będzie.
    Może nowy moduł CeON? 😉

    #145

    Rafal Kopaczka
    Członek

    Być może jednak będzie się dało, bez większych kombinacji.
    Wystarczy dodać kontekst do serwera oai w konfiguracji:
    config/crosswalks/oai/xoai.xml
    Na kontekst ten można ustawić autoryzację po IP. Teraz, żeby udostępniał to co chcemy (czyli zbiory z pracami dyplomowymi), dopisać trzeba będzie filtr, wybierający tylko pozycje z określonych zbiorów. W zależności od używanego silnika, będzie to zapytanie do bazy danych lub do SOLR. W obu przypadkach nie powinno być większych trudności z implementacją 🙂
    Ten sposób obecnie stosowany jest do filtrowania pozycji zastrzeżonych w oai. Można podejrzeć jak, mniej więcej powinien taki filtr wyglądać w pliku:
    dspace-oai/src/main/java/org/dspace/xoai/filter/DSpaceAuthorizationFilter.java

    #146

    Mateusz Neumann
    Klucznik

    Świetnie. Dzięki za wskazówki

Przeglądają 12 wpisy - 1 przez 12 (z 12 w sumie)

Musisz być zalogowany aby odpowiedzieć na ten temat.