Dokumentation zur Text2TCS-Applikation

Eine erste Version des Tools kann auf dem European Language Grid ausprobiert und heruntergeladen werden: https://live.european-language-grid.eu/catalogue/tool-service/8122

Text2TCS ist eine Applikation zur automatischen Extraktion von terminologischen Begriffssystemen aus Text in UTF-8 Kodierung. Die Applikation extrahiert Termini, gruppiert diese zu Synonymgruppen, und extrahiert Beziehungen zwischen den dadurch geformten Begriffen.

Die folgenden Arten von fachspezifischen Benennungen oder Termini werden berücksichtigt:

  • Einwortbenennungen
  • Mehrwortbenennungen (Präpositionalkonstruktionen, Nominalkomposita, etc.)
  • Namen
  • Kurzformen/Kürzungen einschl. Akronyme
  • Synonyme

Die folgenden Arten von Beziehungen werden für jede der nachtsehend genannten Sprachen extrahiert, wobei der Beziehungsname immer auf Englisch gemäß der folgenden Typologie angezeigt wird:

  • hierarchische Beziehungen:
    • generic Relation (Spezifisch -> Allgemein)
    • partitive Relation (Teil -> Ganzes)
  • nicht-hierarchische Beziehungen:
    • activity relation (Aktivität -> Akteur; Aktivität -> Entität)
    • causal relation (Ursache -> Wirkung)
    • spatial Relation (Entität -> Raum)
    • instrumental relation (Instrument -> Zweck)
    • origination relation (Entität -> Ursprung)
    • property relation(Entität -> Eigenschaft)
    • associative relation (lose thematische Beziehung)

Die Ausgabe dieser Informationen erfolgt sowohl in einem eigens erstellten Textformat für eine vereinfachte Lesbarkeit sowie als TBX/XLM Format.

Die Applikation basiert auf XML-R, einem Spracherkennungstool und einem Tokenizer welche zusammen die folgenden Sprachen unterstützen:

    • Amharisch
    • Arabisch
    • Armenisch
    • Bulgarisch
    • Birmanisch
    • Chinesisch
    • Dänisch
    • Englisch
    • Deutsch
    • Niederländisch
    • Französisch
    • Griechisch
    • Hindi
    • Italienisch
    • Japanisch
    • Kasachisch
    • Marathi
    • Persisch
    • Polnisch
    • Russisch
    • Spanisch
    • Urdu

    XLM-R selbst unterstützt eine größere Anzahl von Sprachen, die jedoch nur teilweise von dem Spracherkennungstool und dem Tokenizer unterstützt werden. Somit kann deren korrekte Verarbeitung nicht garantiert werden, wobei trotzdem eine sinnvolle Ausgabe für folgende von XLM-R unterstützten Sprachen möglich ist: Afrikaans, Albanian, Assamese, Azerbaijani, Basque, Belarusian, Bengali, Bengali Romanized, Bosnian, Breton, Catalan, Chinese (Simplified), Chinese (Traditional), Croatian, Czech, Esperanto, Estonian, Filipino, Finnish, French, Galician, Georgian, Gujarati, Hausa, Hebrew, Hindi Romanized, Hungarian, Icelandic, Indonesian, Irish, Javanese, Kannada, Khmer, Korean, Kurdish (Kurmanji), Kyrgyz, Lao, Latin, Latvian, Lithuanian, Macedonian, Malagasy, Malay, Malayalam, Mongolian, Nepali, Norwegian, Oriya, Oromo, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Sanskri, Scottish, Gaelic, Serbian, Sindhi, Sinhala, Slovak, Slovenian, Somali, Sundanese, Swahili, Swedish, Tamil, Tamil Romanized, Telugu, Telugu Romanized, Thai, Turkish, Ukrainian, Urdu Romanized, Uyghur, Uzbek, Vietnamese, Welsh, Western, Frisian, Xhosa, Yiddish.

    Die folgenden Tools mit den nachstehend angegebenen Versionen Lizenzen wurden für die Entwicklung dieser Applikation verwenden:

    Name

    Entwickler

    Softwarelizenz

    Sacremoses (Version 0.0.45)

    Liling Tan

    (https://alvations.bitbucket.io/) 

    MIT License

    Seaborn (Version 0.11.1)

    Michael Waskom (https://mwaskom.github.io/)

    BSD 3-Clause "New" or "Revised" License

    Torch (Version 1.8.1+cu101) - component of PyTorch

    Facebook and others (see license)

    Facebook ad others (see link in notes)

    NLTK

    NLTK Project

    Apache 2.0

    Numpy (Version 1.19.5)

    NumPy

    BSD 3-Clause "New" or "Revised" License

    Pandas (Version 1.1.5)

    Pandas Development Team

    BSD 3-Clause "New" or "Revised" License

    SentencePiece (Version 0.1.95)

    Google

    Apache License 2.0

    Spacy (Version 2.2.4)

    Explosion

    MIT License

    Transformers (Version 4.6.1)

    Wolf et al. (https://aclanthology.org/2020.emnlp-demos.6/)

    Apache License 2.0

    MatPlotLib (Version 3.2.2)

    Python Software Foundation

    Python Software Foundation License (PSF)

    scikit_learn (Version 0.24.2)

    scikit-learn developers

    BSD License

    nvidia_ml_py3 (Version 7.352.0)

    NVIDIA Corporation

    BSD License

    Seqeval (Version 1.2.2)

    Hironsan

    MIT License

    Pynvml (Version 8.0.4)

    NVIDIA Corporation

    BSD License

    graphviz (Version 0.10.1)

    Sebastian Bank

    MIT License

    lxml (Version 4.2.6)

    Stefan Behnel et al (https://lxml.de/4.2/credits.html)

    BSD License

    XLM-R

    The Hugging Face Team

    Apache License 2.0