Dokumentation zur Text2TCS-Applikation
Eine erste Version des Tools kann auf dem European Language Grid ausprobiert und heruntergeladen werden: https://live.european-language-grid.eu/catalogue/tool-service/23661/try%20out/
Text2TCS ist eine Applikation zur automatischen Extraktion von terminologischen Begriffssystemen aus Text in UTF-8 Kodierung. Die Applikation extrahiert Termini, gruppiert diese zu Synonymgruppen, und extrahiert Beziehungen zwischen den dadurch geformten Begriffen.
Die folgenden Arten von fachspezifischen Benennungen oder Termini werden berücksichtigt:
- Einwortbenennungen
- Mehrwortbenennungen (Präpositionalkonstruktionen, Nominalkomposita, etc.)
- Namen
- Kurzformen/Kürzungen einschl. Akronyme
- Synonyme
Die folgenden Arten von Beziehungen werden für jede der nachtsehend genannten Sprachen extrahiert, wobei der Beziehungsname immer auf Englisch gemäß der folgenden Typologie angezeigt wird:
- hierarchische Beziehungen:
- generic Relation (Spezifisch -> Allgemein)
- partitive Relation (Teil -> Ganzes)
- nicht-hierarchische Beziehungen:
- activity relation (Aktivität -> Akteur; Aktivität -> Entität)
- causal relation (Ursache -> Wirkung)
- spatial Relation (Entität -> Raum)
- instrumental relation (Instrument -> Zweck)
- origination relation (Entität -> Ursprung)
- property relation(Entität -> Eigenschaft)
- associative relation (lose thematische Beziehung)
Die Ausgabe dieser Informationen erfolgt sowohl in einem eigens erstellten Textformat für eine vereinfachte Lesbarkeit sowie als TBX/XLM Format.
Die Applikation basiert auf XML-R, einem Spracherkennungstool und einem Tokenizer welche zusammen die folgenden Sprachen unterstützen:
- Amharisch
- Arabisch
- Armenisch
- Bulgarisch
- Birmanisch
- Chinesisch
- Dänisch
- Englisch
- Deutsch
- Niederländisch
- Französisch
- Griechisch
- Hindi
- Italienisch
- Japanisch
- Kasachisch
- Marathi
- Persisch
- Polnisch
- Russisch
- Spanisch
- Urdu
XLM-R selbst unterstützt eine größere Anzahl von Sprachen, die jedoch nur teilweise von dem Spracherkennungstool und dem Tokenizer unterstützt werden. Somit kann deren korrekte Verarbeitung nicht garantiert werden, wobei trotzdem eine sinnvolle Ausgabe für folgende von XLM-R unterstützten Sprachen möglich ist: Afrikaans, Albanian, Assamese, Azerbaijani, Basque, Belarusian, Bengali, Bengali Romanized, Bosnian, Breton, Catalan, Chinese (Simplified), Chinese (Traditional), Croatian, Czech, Esperanto, Estonian, Filipino, Finnish, French, Galician, Georgian, Gujarati, Hausa, Hebrew, Hindi Romanized, Hungarian, Icelandic, Indonesian, Irish, Javanese, Kannada, Khmer, Korean, Kurdish (Kurmanji), Kyrgyz, Lao, Latin, Latvian, Lithuanian, Macedonian, Malagasy, Malay, Malayalam, Mongolian, Nepali, Norwegian, Oriya, Oromo, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Sanskri, Scottish, Gaelic, Serbian, Sindhi, Sinhala, Slovak, Slovenian, Somali, Sundanese, Swahili, Swedish, Tamil, Tamil Romanized, Telugu, Telugu Romanized, Thai, Turkish, Ukrainian, Urdu Romanized, Uyghur, Uzbek, Vietnamese, Welsh, Western, Frisian, Xhosa, Yiddish.
Die folgenden Tools mit den nachstehend angegebenen Versionen Lizenzen wurden für die Entwicklung dieser Applikation verwenden:
Name | Entwickler | Softwarelizenz |
Sacremoses (Version 0.0.45) | Liling Tan | MIT License |
Seaborn (Version 0.11.1) | Michael Waskom (https://mwaskom.github.io/) | BSD 3-Clause "New" or "Revised" License |
Torch (Version 1.8.1+cu101) - component of PyTorch | Facebook and others (see license) | Facebook ad others (see link in notes) |
NLTK | NLTK Project | Apache 2.0 |
Numpy (Version 1.19.5) | NumPy | BSD 3-Clause "New" or "Revised" License |
Pandas (Version 1.1.5) | Pandas Development Team | BSD 3-Clause "New" or "Revised" License |
SentencePiece (Version 0.1.95) | Apache License 2.0 | |
Spacy (Version 2.2.4) | Explosion | MIT License |
Transformers (Version 4.6.1) | Wolf et al. (https://aclanthology.org/2020.emnlp-demos.6/) | Apache License 2.0 |
MatPlotLib (Version 3.2.2) | Python Software Foundation | Python Software Foundation License (PSF) |
scikit_learn (Version 0.24.2) | scikit-learn developers | BSD License |
nvidia_ml_py3 (Version 7.352.0) | NVIDIA Corporation | BSD License |
Seqeval (Version 1.2.2) | Hironsan | MIT License |
Pynvml (Version 8.0.4) | NVIDIA Corporation | BSD License |
graphviz (Version 0.10.1) | Sebastian Bank | MIT License |
lxml (Version 4.2.6) | Stefan Behnel et al (https://lxml.de/4.2/credits.html) | BSD License |
XLM-R | The Hugging Face Team | Apache License 2.0 |