Επισημείωση δένδρων εξάρτησης στα πλαίσια της Τεχνογλωσσίας (201405)

Νέα

  • 25/06: Η νέα προθεσμία για την παράδοση των επισημειωμένων ΔΕ είναι η 15/07.
  • 15/06: Για την πρακτική άσκηση στη συναναφορά δείτε εδώ.
  • 12/06: Μια εναλλακτική λύση για την εγκατάσταση του TrEd μαζί με όλα τα απαραίτητα περιγράφεται εδώ.
  • 12/06: Η παρουσίαση για το εργαστήριο επισημείωσης δένδρων εξάρτησης έχει ανέβει εδώ.
  • 11/06: Το deadline της εργασίας για το dependency annotation ορίστηκε για τις 30/06.

  • Ευχαριστούμε θερμά για τη συμμετοχή σας στην εργασία!

Εργαλείο επισημείωσης

Η επισημείωση γίνεται με τη βοήθεια του Tred, ενός graphical user interface που επιτρέπει την επισκόπηση και επεξεργασία συντακτικών δέντρων εξάρτησης. O Tred αναπτύχθηκε στα πλαίσια του Prague Dependency Treebank.

Εγκατάσταση: Για να εγκαταστήσετε τον Tred,

  • Απενεργοποιήστε τα όποια προγράμματα antivirus/firewall έχετε στον υπολογιστή σας.
  • Κατεβάστε το tred από εδώ και εγκαταστήστε το στον υπολογιστή σας.
  • Ακολουθήστε τις οδηγίες από εδώ για να μπορέσετε να εγκαταστήσετε τα tred extensions που σχετίζονται με το GDT στον υπολογιστή σας.
  • Επιλέξτε να εγκαταστήσετε το gdt_bridging extension ώστε να μπορείτε να επισημειώνετε τόσο δένδρα εξάρτησης όσο και σχέσεις συναναφοράς.

Μετά την εγκατάσταση του TrEd, χρησιμοποιήστε τα αρχεία που θα σας δοθούν για να εξασκηθείτε στη λειτουργία του προγράμματος. Έργο του επισημειωτή είναι να αναδιατάξει τους κόμβους του δέντρου και να αποδώσει τις σωστές ετικέτες σε κάθε κόμβο, σύμφωνα με τις οδηγίες, και όπου αυτό χρειάζεται. Κατά τη διάρκεια της επισημείωσης για τα δένδρα εξάρτησης, βεβαιωθείτε ότι χρησιμοποιείτε το style GDT_A_Edit.

Αρχεία επισημείωσης

  • Τα αρχεία προς επισημείωση βρίσκονται εδώ. Ο κάθε επισημειωτής θα δουλέψει πάνω σε 4 αρχεία (περίπου 60 προτάσεις) σύμφωνα με αυτόν τον κατάλογο . Αποθηκεύστε τα αρχεία σε έναν κατάλογο χωρίς ελληνικούς χαρακτήρες και χωρίς κενά στο path, π.χ. c:/data/texnoglwssia-2014-dep/data/ ή /home/user/texnoglwssia-2014-dep/data/.
  • Οι προτάσεις κάθε αρχείου αναπαρίστανται ως δένδρα. Στον κόμβο που αντιστοιχεί σε κάθε λέξη της πρότασης, υπάρχει α) μία ετικέτα που αντιστοιχεί στη σχέση εξάρτησης προς τον κόμβο κεφαλή και β) μία ετικέτα που αντιστοιχεί στη μορφολογική πληροφορία της λέξης (μέρος του λόγου, πτώση, χρόνος κλπ.)
  • Πληροφορίες και παραδείγματα για το tagset (το σύνολο των ετικετών) που αφορά τη μορφολογική πληροφορία θα βρείτε εδώ. Η διόρθωση των tags αλλά και των λημμάτων δεν αποτελούν μέρος της εργασίας.

Οδηγίες για το σχήμα επισημείωσης του GDT

Για να διαβάσετε και να αποθηκεύσετε τις οδηγίες επισημείωσης, πηγαίνετε εδώ .

Προβληματικές περιπτώσεις

Σε περιπτώσεις όπου οι επισημειωτές πιστεύουν ότι οι οδηγίες δεν καλύπτουν κάποιο φαινόμενο, ή οι ίδιοι δεν είναι βέβαιοι για την απόφαση που έχουν πάρει, μπορούν  να σημειώνουν στο πεδίο commentA του υπό εξέταση κόμβου επεξηγηματικά σχόλια για το πρόβλημα που αντιμετωπίζουν. Για να αποκτήσετε πρόσβαση στο πεδίο commentA (αλλά και σε όλα τα άλλα πεδία), κάντε διπλό κλικ στον κόμβο.

Επίσης, αν δεν μπορούν να πάρουν κάποια απόφαση για το label του υπό εξέταση κόμβου, μπορούν να αποδώσουν στον κόμβο την τιμή ???.

Για τις απορίες που πιθανόν να έχουν οι επισημειωτές για τις οδηγίες καλό θα είναι

  • να τις συζητούν με τα μέλη της ομάδας τους, αλλά όχι με επισημειωτές που ασχολούνται με τα ίδια αρχεία
  • να συγκεντρώνουν στη συνέχεια τις απορίες τους
  • τέλος να επικοινωνούν σύμφωνα με τις οδηγίες που σας έχουν δοθεί.