Apache OpenNLP - ELTE

Chaque enseignant est défini par un mail, un nom et une page web. Enfin,
chaque cours admet un thème bien déterminé. Définir les différentes classes et
propriétés de l'ontologie puis donner une instance correcte par rapport à l'
ontologie proposée. Exercice 2 : Soit le diagramme de classes UML suivant qui
indique les ...

Part of the document


Tudáskezel? Labor
Eredmények Bodnár Tamás Tartalomjegyzék Cikk kivonatok 3 The 20th Century Press Archives as Linked Data Application 3 Twitris 2.0 : Semantically Empowered System for Understanding Perceptions
From
Social Data 8 Exploring Your Research: Sprinkling some Saron on Semantic Web Dog Food 12 Interactive Exploration of Web Datasets with VisiNav 15 TrialX: Using semantic technologies to match patients to relevant clinical
trials based
on their Personal Health Records 18 Egy nyelvészeti UIMA-folyamat a kézi annotálástól az eredmények
megjelenítéséig 22 Valós idej? szövegosztályozás a Wikipédia szolgálatában 25 asdA graph-based approach to measuring semantic relatedness in ontologies
27 WordNet - OracleText 33 Oracle Text alapján valamilyen mértékben hasonló fogalmak és a WordNet
alapján
mért távolságok között van-e összefüggés? 33 Google API 39 Google Fordító Java API 39 NLP csomagok 42 Apache OpenNLP 42 Stanford NLP 44 Phrasal (Stanford NLP gépi fordítója) 45 GATE és SharpNLP 52 The 20th Century Press Archives as Linked Data Application
Joachim Neubert
German National Library of Economics (ZBW) - Leibniz Centre for Economics
Neuer Jungfernstieg 21, 20347 Hamburg, Germany
j.neubert@zbw.eu Kivonat
Bodnár Tamás
A Gazdasági Német Nemzeti Könyvtár (German National Library of Economics
(ZBW) ) 20th Century Press Archives ( 20. századi sajtóarchívum ) egy
hatalmas újsággy?jtemény, mely személyekr?l, vállalatokról, termékekr?l és
általános közérdek? dolgokról tartalmaz információt az 1826-tól 2005-ig
tartó id?szakból, tematikus rendbe csoportosítva.
Bevezetés
A 20. század kezdetén a Hamburgi Gyarmatügyi Intézet Központi Osztálya
(1919-t?l Hamburgi Nemzetközi Gazdasági Intézet) és a Kieli Világgazdasági
Intézet Gazdasági Archívuma elkezdett politikai és nemzetközi gazdasági
információkat gy?jteni. Ez több, mint 1300 újság forrásait felhasználva egy
hatalmas adatmennyiséget eredményezett. A tárolt dokumentumok száma kb. 30
millió (ebb?l eddig kb. 5.7 millió van digitalizálva). Ma ez a ZBW (German
National Library of Economics) kezelésében van.
Az alkalmazás fejlesztésének céljai A P20 alkalmazás (http://zbw.eu/beta/p20) online hozzáférést biztosít 6,800
dossziéhoz és 250,000 személyekhez és vállalatokhoz köthet? dokumentumhoz.
A jelenleg béta verziójú alkalmazás a fent említett web-alkalmazást
egészíti ki.
Az új alkalmazás f?bb céljai a következ?k voltak:
1. Minden gy?jteménynek, dossziénak, dokumentumnak, oldalnak és
még a keresési eredményhalmazoknak is egy állandó azonosítót ad
2. A web metaadatokból keretet adjon a felhasználónak és
kapcsolódjon más, a domainnek releváns adatforrásokhoz
3. Támogassa a felhasználónak ismer?s szabványos kép és metaadat
megjelenítését (a METS/MODS-on alapulva)
Megkönnyítse az automatikus adatbányászatot és az adat újrafelhasználását Általános tervezési döntések
Mivel az archívum adatainak minél könnyebb elérése és felhasználása volt a
cél, valamint küls? Linked Open Data forrásokat kellett bevonni, ezért
betartották a Linked Data Principles-t ("Összekapcsolt Adatok Alapelvei").
A meglév? adatokhoz elég kevés metaadat állt rendelkezésre; az
alapinformációt az adatgy?jtemény tematikus csoportosítása jelenti
(id?rendi sorrendbe rendezve). A 20th Century Press Archives, mint Linked Data Application OAI-ORE, mint az adatmodell gerince
Open Archives Initiative Object Reuse and Exchange (OAI-ORE) a Web források
aggregációinak leírására és cseréjére fogalmaz meg szabványokat.
Ez a szabvány teljesen megfelel az itt lev? adatok struktúrájához, s?t az
alkalmazás 1. célja (azonosítók kiosztása még a dinamikusan generált
eredményhalmazoknak is) meg is valósítható az OAI-ORE használatával.
Az ORE-OAI szótár a hatékony adatbányászat el?segítésének figyelembe
vételével lett kialakítva, és a szabvány egyéb struktúrált elemeivel a 4.
célt is meg lehet valósítani (adatbányászat megkönnyítése). Fig. 1 RDF elemek és más P20 web er?források és kapcsolatok a LOD felh?vel RDFa egy egyszer? megjelenítésre
Mivel az alkalmazás f?leg végfelhasználóknak szól, RDFa egy természetes
választás volt az aggregációk sorba rendezésére és (X)HTML oldalakba való
beágyazására. URI koncepció
A P20-ban két szerepe van az URI-knak.
Állandó azonosítók, nem hivatkozható HTTP-n keresztül, a Kapcsolt Adat
Alapelveknek megfelel?en és egyben felhasználói interfész is, mint a P20
web szolgáltatásának az API-ja.
Aggregációs URI:
p20:{collection_name}(/{dossier_key}(/{document_number}(/{page_number})?)?)? Forrás Térkép URI:
p20:{aggregation_uri_part}/about(.{language}.({format})?)?
A felhasználó kiválaszthatja a megjelenítés nyelvét. Jelenleg a német (de)
és angol (en) támogatott. A jelenleg támogatott kimeneti formátumok RDFa
(html) és - dossziékhoz és dokumentumokhoz - METS/MODS (xml).
Megjelenítési URI:
p20:{collection_name}/{dossier_key}(/document_number})?/view(.{language})?
A megjelenítési URI-k a DFG-Viewer webszolgáltatás hívásához paraméterként
vannak hozzárendelve a dossziék és dokumentumok METS/MODS XML
reprezentációjának URI-jával együtt.
Keresési URI:
Keresés eredményhalmazoknak hivatkozhatónak kell lenni az URI-k által. Az
aggregációs URI-k
p20:{collection_name}/searchresult(/{language})?\?q={query}
átirányítódnak (303-redirected):
p20:{collection_name}/searchresult/about(/{language})?\?q={query}
Ez jelenleg implementálva van a Vállalati doszziékra (cím keresése
szövegként). Részletek
A Német Nemzeti Könyvtár nemrég adta ki a Német Személyinév hatósági
fájlokat (German Personal Name Authority Files), mint kapcsolt adatok,
ezáltal képesek voltak ezt összekapcsolni az életrajzi dossziéval és a
DBpedia-val, amin keresztül Wikipedia linkeket is be tudtak tölteni az
oldalakra. Ezzel az angol nyelv? rész kész is volt, bár a dokumentumok csak
német nyelv?ek. A Linked Data növeli az Életrajzi Dosszié Keresési hatékonyságát
Az életrajzi dosszié keresési funkciója kapcsolt adatokat használ
közbevetve egy webszolgáltatást, ami más neveket is a keresési listához ad,
és továbbítja a tényleges dossziénak a keresés elvégzéséhez:
Netto, Henrique M. -> Coelho Neto, Henrique M.; 1864-1934
Reiling, Netty -> Seghers, Anna; 1900-1983
A hatósági fájlok és thesaurusok használata nagyban növeli a hatékonyságot,
mivel olyan szinonímákat is hozzávesz a kereséshez, amik szintaktikailag
nem kapxsolódnak egymáshoz, de ugyanazt a személyt vagy fogalmat jelölik. Keresési eredmények: OAI-ORE kiterjesztése dinamikus aggregációkká
Az ORE eleve azért lett használva, hogy a keresési eredméynekre is lehessen
hivatkozásokat létrehozni, és ezekben keresni, ami így dinamikusan
felépített aggregáció lesz. Ez a Vállalati dossziéknál van használva, ahol
csak a dosszié címkéje ismert. METS/MODS, DFG-Viewer
A DFG-Viewer való a dokumentumok nézegetésére és böngészésére. Ez METS/MODS
XML fájlokat dolgoz fel. Mivel nem találtak megfelel? szabványos
jelöl?rendszert, ezért egy egyedi rendszert használnak, ami az adatok
struktúráltságából adódik, és állandó azonosítókat használ. Nagy aggregációk felosztása
Mivel a dossziék szintjén az aggregációk túl nagyok weboldalon történ?
böngészéshez vagy hatékony adatbányászathoz, ezért bevezettek egy középs?
réteget egy kezdeti hash-eléssel(lásd Fig. 1). A struktúra azt a szándékot
fejezi ki, hogy egy olyan logikus navigálású utat készítsen, aminek nincs
meg az a hátránya, hogy nagy mennyiség? linket kell kezelnie. Technikai Implementáció
A fejlesztés Perl környezetben történt, az alkalmazás egy Apache
webszerveren fut. Az implementációs struktúra egy relációs adatbázisra
(Postgresql), egy osztály-relációs rétegre (DBIx::Class), egy "business
objects" rétegre(ZBW::Resource::* osztályok, melyek a különböz? RDF
osztályokat és azok property-jeit fejezi ki felhasználva az
RDF::Query::Client-t a kapcsolt adatok web-elérésére), egy irányító
komponensre (CGI::Application, URI tárolással, amit a
CGI::Application::Dispatch::Regex Plugin végez) és egy megjelenít?
komponensre épít, ahol a tényleges RDFa oldalak készülnek (HTML::Template).
A felhasználói felület YUI CSS és Javascript keretrendszerekkel készült.
Az OAI-ORE beágyazott struktúrája lehet?vé teszi a kód újra felhasználását
eljárásokon keresztül, mint pl. a get_children_data(), ami az aggregáció
minden szintjén meghívható. Licensz
Az adathalmazok licenszének kérdése még mindig nyitott, mivel a metaadatok
(a rendezettség) jogát a ZBW, míg a dokumentumokét több tízezer szerz?
birtokolja. Ezeket a The 20th Century Press Archives as Linked Data
Application nem tudja garantálni. Összegzés
A semantikus webtechnológiák és a kapcsolt adattechnikák (Linked Data
Techniques) nagyban megnövelték a mélyen beágyazott digitális adatok
hozzáférhet?ségét. Az OAI-ORE/RDFa a nem semantikus webeszközökkel a
felhasználók számára nyújtott nagy segítséget.
Sok archívumban a metaadatok mennyisége még kisebb, mint a 20th Century
Press Archives-ba, ezért az eredeti rendezettség meg?rzése nagyon fontos.
Emiatt az OAI-ORE felvázolt egy lehet?séget a klasszikus archívumok
tárolására és keresésére. Referenciák
[1] Huck, T.S., Wannags, M.: Die Pressearchive von HWWA und ZBW -
Retrodigitalisierung der Altbestände von 1900 bis 1930. In: Burckhardt, D.
(ed.) .hist 2006: Geschichte im Netz: Praxis, Chancen, Visionen: Beiträge
der Tagung .hist 2006, p