Digitális források j

j. berenike herrmann honlapja
digitális források
Herrmann, J.B. & Lauer, G. KOLIMO. Az irodalmi modernizmus korpusza (béta) („Corpus Literary Modernism”). (további információk alább *)
Messerli, Th., Rothenhäusler, K., Rebora, S. & J.B. Herrmann. LoBo. A LovelyBooks Corpus. Digitális laikus könyvismertetők gyűjteménye (+1 millió vélemény).
Herrmann, J. B., Gabay, S. és S. Rebora. Többnyelvű svájci regény korpusz 1850–1920, az ELTeC része (COST akció „Távoli olvasás az európai irodalomtörténetért”, CA16204).
Herrmann, J.B. (2016). EAK. Elbeszélő nyitótest. Az irodalmi szépirodalom kezdeti szakaszainak korpusza. Kézzel kódolt metafora.
Steen, G. J., Dorst, A. G., Herrmann, J. B., Kaal, A. A. és T. Krennmayr (2010). VU Amszterdam metafora korpusz. Oxfordi szövegarchívum.
blogok és wikik
Herrmann, J. B., Bageritz, I., Hannemann, L., Heimann, P., Kleinschmidt, L., Mattner, C., Roth-Kleyer, G., Weller, R. (2016). KEXI. Kifejező és interperszonális írás korpusz. (Kifejező és interperszonális író korpusz).
Herrmann, J.B. (Szerk.) (2012). Az irodalom kiszámítása (‘Computing Literature’). Wiki a digitális szövegelemzéshez. (‘Digitális szövegelemző wiki’).
* kolimo
Az eXistdb-korpusz „KOLIMO” jelenleg átdolgozás alatt áll. A göttingeni egyetemen építették 2015-2017. A következőkben a https://kolimo.uni-goettingen.de/about.html webhelyen található archivált „about section” található. .
A KOLIMO rövidítés
… Az „irodalmi modernizmus korpuszát” jelenti. Pontosabban: a KOLIMO a német narratív irodalmi modernizmus digitális összehasonlító korpusza. A korpuszt saját stíluselemzésünkhöz készítettük, de mivel meg vagyunk győződve arról, hogy egy ilyen erőforrást meg kell osztani a kutatóközösséggel, a korpusz összeállítását a közzétételt szem előtt tartva hajtották végre. Vegye figyelembe azonban, hogy a KOLIMO NEM „korpusz eszköz”. A webes felület lehetővé teszi a kutatók számára a lekérdezések futtatását, de a megfelelő elemzés elvégzését. Készítünk egy letöltési lehetőséget egy weboldalon.
Miért "béta"?
A „Beta” azt jelenti, hogy még nem vagyunk teljes mértékben ott, de elég magabiztosnak érezzük magunkat ahhoz, hogy megosszuk veletek, amit birtokunkban van.
Mit jelent „a német irodalmi modernizmus digitális összehasonlító elbeszélő korpusza”?
A KOLIMO-t okkal hoztuk létre:
Tehát a KOLIMO egy összehasonlító narratív korpusz. Ezért többre van szükségünk, mint irodalomra, többre, mint a modernizmusra, hanem csak elbeszélő szövegekre.
A KOLIMO stíluselemzésre szolgál
A KOLIMO a folyamatban lévő Q-LIMO korpusz-stilisztikai projekt gerince (Az irodalmi modernizmus kvantitatív és kvalitatív elemzése). Mint ilyen, a modern német narratív irodalom végül reprezentatív korpuszának szánják. Szintén több metaadattal, valamint többrétegű nyelvi és irodalmi-esztétikai annotációkkal kívánja gazdagítani egymást.
Célunk a KOLIMO elkészítésében, hogy kvantitatív és kvalitatív-hermeneutikai stíluselemzéseket tegyünk lehetővé a német elbeszélő szövegek számára a 20. század fordulójának izgalmas időszakából - olyan változókon keresztül, mint a narratív műfaj, a szerző és az idő. Például Franz Kafka stílusának sajátosságai érdekelnek bennünket - milyen szavak, kifejezések és esztétikai alakok jelzik írását? Felkutathatjuk-e a nem irodalmi beszédterületek (például a jogi diskurzus), más irodalmi írók (például a kortárs Robert Walser és egy évszázaddal korábban Heinrich von Kleist) vagy akár a nem kanonikus irodalmi műfajok (ilyenek) lehetséges hatásait? mint kalandirodalom)? Vegye figyelembe, hogy a KOLIMO tartalmazza a KAREK-et, a „Kafka referencia korpuszt”. Kutatási projektünkben, ahol a modernizmus a KOLIMO szíve, Kafka volt a modernizmus szíve. Ez nem értékítélet, hanem kutatási érdek: Ahhoz, hogy valamit mondhassunk Kafka stílusáról, több kortárs szerzőre van szükségünk, és „idősebbekre” is, összehasonlítás céljából. A KOLIMO létező digitális forrásokból készül, de túlmutat rajta.
A KOLIMO összetett erőforrás
Szövegeink nagy részét szabadon hozzáférhető digitális forrásokból nyertük. Mondhatnád: ha odakint vannak, miért kell bajlódni? Nos: Bár több létező adattár is létezik (pl. A TextGrid Tárház, a Német Szöveges Archívum [DTA], a Gutenberg-DE és a Gutenberg.org), összekötöttük őket, mert így több, mint a részeik összessége.
A KOLIMO előtt számos kezdeményezés ellenére hiányzott az Irodalmi Modernizmus című német narratíva digitális korpusza. Bizonyára reprezentatívra törekszik, amelyet összehasonlító elemzésre terveztek (lásd fent), és amely állandó és manuálisan továbbfejlesztett metaadatokat tartalmaz. Sőt, a KOLIMO egy első nyelvi annotációval érkezik. A KOLIMO tehát egyedülálló erőforrás. Örülünk, hogy nyilvánosan elérhetővé tettük. A metaadatok eredetileg ugyanazokból a forrásokból származnak, mint a szövegek - de keményen dolgoztunk azok fejlesztésén, például a GND-k hozzáadásával és validálásával a metaadat „szerzőjéhez”; a „megjelenés éve” üres helyeinek kitöltése durva, de praktikus eljárással. A KOLIMO egy XML adatbázisban, az eXist-db (eXist-db alkalmazás a KOLIMO forrásokhoz: metaadatok lekérdezése és szerkesztése) tárolásra kerül. Minden dokumentum tartalmaz egy szabványosított TEI fejlécet, amely mindenféle hasznos információt tartalmaz az egyes szövegekről, beleértve a metaadatokat, valamint a kiválasztott stílusjelölőket.
Milyen stílusjelzőket találok a KOLIMO-ban?
A KOLIMO lehetővé teszi a nyelvhasználat mennyiségi profiljának futtatását. Ez lényegében azt jelenti, hogy „megszámoljuk a dolgokat a nyelv felületén”. Azon alapfeltevéssel dolgozunk, hogy a „stílust” a számítógép által könnyen megkülönböztethető szöveges jellemzők frekvenciaszámlálásával értékelhetjük: karakterek, szótagok, szavak, mondatok stb., Olyan méretekkel kombinálva, mint a szó hossza, a mondat hossza, a típusjelzők aránya, a leggyakoribb szójegyzékek stb. A bőséges stilometriai kutatások azt mutatják, hogy ez az egyszerű stílusszemlélet meglehetősen gyümölcsöző. Természetesen itt kezdődhet bármilyen fejlettebb elemzés, ideértve a szöveg-hasonlóság klaszteranalízisét a leggyakoribb szószámok (pl. Delta) alapján, vagy a lexikai variáció entrópiás mértékeit. Bármi megy, mindaddig, amíg megragadjuk a szövegeket alkotó diszkrét elemeket (karakterek, húrok stb.).
Ennek ellenére hiszünk a nyelvi (és más típusú) annotációk értékében is: a KOLIMO-t megcímkézték a beszéd részéhez (POS), és lefuttattuk az olvashatósági elemzéseket (Flesh-Index, Wiener Sachtextformel). Az olvashatósági értékeket a TEI fejlécek, valamint a szavak számával kapcsolatos alapvető leíró statisztikák tárolják. Többféle annotáció jelenik meg (pl. Metaforán dolgozunk, és a beszéd/gondolatábrázolás annotációjával kísérleteztünk).
Hiszünk a pontosság előnyeiben, például amikor az annotátorok ellenőrzött módon működnek együtt, megállapodásaikat kódolók közötti megbízhatóság mérésével tesztelték. Az új kommentárok beviteléhez több annotátor segítségével választottunk egy stand-off XML formátumot az adatbázisunkhoz (eXist). Sőt, az eXist lehetővé teszi az adatok könnyebb közzétételét az interneten és hatékony lekérdezéseket (xQuery). Kísérleteztünk az eXist annotációs alkalmazásaival is.
Digitális stílusú kutatásunk lényegében egy nyílt kutatási folyamat, amelynek hipotézistesztelését az elemzésekből új és kritikus szempontok támasztják alá.
Licenc- és hozzárendelési információk
A KOLIMO csak kutatási célokat szolgál. Összeállítottuk a KOLIMO-t német nyelvű szövegek halmazaként, kivonva a szöveges és metaadatokat a TEI fejlécében (és az alábbiakban) megadott forrásokból. Javítottuk a meglévő metaadatok egy részét, és új metaadatokat adtunk hozzá (egyes) szerzőkhöz, (egyesek) megjelenési dátumokhoz és műfajhoz, valamint stílusstatisztikához. Az adattárak, ahonnan az adatainkat vettük, mind olyan szövegeket tartalmaznak, amelyek szerzői jogának lejártak.
A KOLIMO Creative Commons licenc alatt áll rendelkezésre, a forrástárak licencjeivel összhangban. A TextGrid szövegei CC-BY hozzárendelési licenc alatt érhetők el (lásd a textgrid digitális könyvtárát). A Deutsches Textarchiv dokumentumokat azonban CC BY-NC 3.0 licenc alapján bocsátják rendelkezésre (nem kereskedelmi jellegűek, lásd a kreatív közös cikkeket), ami azt jelenti, hogy e szövegek kereskedelmi célú használata tilos (lásd a használati feltételeket dta). A Gutenberg-DE dokumentumok elérhetővé válnak CC-BY-NC-SA licencként (nem kereskedelmi jellegű, megosztás egyaránt, lásd a kreatív közös pontokat), ami azt jelenti, hogy tilos e szövegek kereskedelmi célú felhasználása, és az újrakeverés, átalakítás, vagy csak az anyagra építve, ha ugyanazt az engedélyt használja, mint az eredeti. A korpusz használatakor ne felejtse el megemlíteni a szövegek forrásait a különálló nyilatkozatokban előírtak szerint, és adjon elismerést az alább felsorolt KOLIMO csapatnak a szöveg összeállításáért, az annotációért és a metaadatokért.
A „Gutenberg” szakaszt a Gutenberg-DE Edition 13 DVD-ROM-ról (amely 2013. novemberben jelent meg, lásd gutenberg-DE) kivontuk, és HTML-ből átalakítottuk XML-re és TXT-re; a „Deutsches Textarchiv” részt kivontuk az „Új felnémet nyelv referencia korpuszából” (lásd: 2015. július 8. verzió; és a „TextGrid” részt kivontuk a „Texts Korpus II. verzióból” (lásd: textgrid digitális könyvtár).
Hogyan lehet idézni a KOLIMO bétát
Amikor a tudományos kommunikációban a korpuszra mutat, kérjük, idézze meg:
További információ a KOLIMO-ról és annak alkorpusáról, a Kafka/referencia korpuszról (KAREK) itt található: