Matches in Data.gov.be for { <http://data.gov.be/.well-known/genid/dataset/kulrdr/doi-10-48804/ZTVMIX> ?p ?o ?g. }
Showing items 1 to 24 of
24
with 100 items per page.
- ZTVMIX accessRights PUBLIC @default.
- ZTVMIX bibliographicCitation "Meeus, Quentin, 2024, "MSNER: Multilingual Spoken Named Entity Recognition Dataset", https://doi.org/10.48804/ZTVMIX, KU Leuven RDR, V1" @default.
- ZTVMIX created "2024-09-09T13:34:07Z" @default.
- ZTVMIX creator 0000-0001-7460-688X @default.
- ZTVMIX description "Bien que largement explorée dans les tâches textuelles, la reconnaissance des entités nommées (NER) reste largement négligée dans la compréhension de la langue parlée. Les ressources existantes sont limitées à un seul jeu de données en anglais seulement. Cet article comble cette lacune en introduisant MSNER, un corpus de parole multilingue librement disponible annoté d'entités nommées. Il fournit des annotations au jeu de données VoxPopuli en quatre langues (néerlandais, français, allemand et espagnol). Nous avons également publié un outil d'annotation efficace qui exploite les pré-annotations automatiques pour un raffinement manuel plus rapide. Il en résulte 590 et 15 heures de discours annoté argent pour la formation et la validation, ainsi qu'un ensemble d'évaluation annoté manuellement de 17 heures. Nous fournissons en outre une analyse comparant les annotations d'argent et d'or. Enfin, nous présentons des modèles NER de base pour stimuler la recherche sur cet ensemble de données nouvellement disponible." @default.
- ZTVMIX description "Hoewel uitgebreid onderzocht in tekstgebaseerde taken, blijft Named Entity Recognition (NER) grotendeels verwaarloosd in het verstaan van gesproken talen. Bestaande bronnen zijn beperkt tot een enkele, Engels-only dataset. Dit document pakt deze kloof aan door MSNER te introduceren, een vrij beschikbaar, meertalig spraakcorpus geannoteerd met benoemde entiteiten. Het biedt annotaties aan de VoxPopuli dataset in vier talen (Nederlands, Frans, Duits en Spaans). We hebben ook een efficiënte annotatietool uitgebracht die gebruikmaakt van automatische pre-annotaties voor snellere handmatige verfijning. Dit resulteert in 590 en 15 uur met zilver geannoteerde spraak voor training en validatie, naast een 17 uur durende, handmatig geannoteerde evaluatieset. We bieden verder een analyse waarin zilveren en gouden annotaties worden vergeleken. Tot slot presenteren we baseline NER-modellen om verder onderzoek naar deze nieuw beschikbare dataset te stimuleren." @default.
- ZTVMIX description "While extensively explored in text-based tasks, Named Entity Recognition (NER) remains largely neglected in spoken language understanding. Existing resources are limited to a single, English-only dataset. This paper addresses this gap by introducing MSNER, a freely available, multilingual speech corpus annotated with named entities. It provides annotations to the VoxPopuli dataset in four languages (Dutch, French, German, and Spanish). We have also releasing an efficient annotation tool that leverages automatic pre-annotations for faster manual refinement. This results in 590 and 15 hours of silver-annotated speech for training and validation, alongside a 17-hour, manually-annotated evaluation set. We further provide an analysis comparing silver and gold annotations. Finally, we present baseline NER models to stimulate further research on this newly available dataset." @default.
- ZTVMIX description "Während in textbasierten Aufgaben ausführlich untersucht, bleibt Named Entity Recognition (NER) im gesprochenen Sprachverständnis weitgehend vernachlässigt. Bestehende Ressourcen sind auf einen einzigen, nur auf Englisch verfügbaren Datensatz beschränkt. Dieses Papier schließt diese Lücke, indem es MSNER einführt, ein frei verfügbares, mehrsprachiges Sprachkorpus, das mit benannten Entitäten versehen ist. Es bietet Anmerkungen zum VoxPopuli-Datensatz in vier Sprachen (Niederländisch, Französisch, Deutsch und Spanisch). Wir haben auch ein effizientes Annotationstool veröffentlicht, das automatische Voranmerkungen für eine schnellere manuelle Verfeinerung nutzt. Dies führt zu 590 und 15 Stunden Silber-annotierte Rede für Training und Validierung, zusammen mit einem 17-stündigen, manuell kommentierten Bewertungssatz. Darüber hinaus bieten wir eine Analyse zum Vergleich von Silber- und Goldannotationen an. Schließlich stellen wir NER-Basismodelle vor, um weitere Untersuchungen zu diesem neu verfügbaren Datensatz anzuregen." @default.
- ZTVMIX identifier "doi:10.48804/ZTVMIX" @default.
- ZTVMIX issued "2024-09-11T12:02:38Z" @default.
- ZTVMIX modified "2024-09-11T12:02:38Z" @default.
- ZTVMIX publisher 0419052173 @default.
- ZTVMIX subject "Electrical and electronic engineering" @default.
- ZTVMIX title "MSNER : Ensemble de données multilingue de reconnaissance d'entités nommées" @default.
- ZTVMIX title "MSNER: Dataset voor meertalige spraakherkenning van entiteiten met de naam Entity Recognition" @default.
- ZTVMIX title "MSNER: Mehrsprachiger Datensatz zur Erkennung benannter Entitäten (Spoken Named Entity Recognition Dataset)" @default.
- ZTVMIX title "MSNER: Multilingual Spoken Named Entity Recognition Dataset" @default.
- ZTVMIX citedBy genid67218 @default.
- ZTVMIX type Dataset @default.
- ZTVMIX contactPoint genid67219 @default.
- ZTVMIX keyword "Multilingual Spoken Named Entity Recognition Dataset" @default.
- ZTVMIX landingPage ZTVMIX @default.
- ZTVMIX theme TECH @default.
- ZTVMIX version "1" @default.