Data.gov.be |

Data.gov.be

Matches in Data.gov.be for { <http://data.gov.be/.well-known/genid/dataset/kulrdr/doi-10-48804/FELKOH> ?p ?o ?g. }

Showing items 1 to 33 of 33 with 100 items per page.

FELKOH accessRights PUBLIC @default.
FELKOH bibliographicCitation "Dehaerne, Enrique; Dey, Bappaditya; Halder, Sandip; De Gendt, Stefan, 2025, "Verilog dataset from "A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation"", https://doi.org/10.48804/FELKOH, KU Leuven RDR, V1" @default.
FELKOH created "2025-07-17T12:14:15Z" @default.
FELKOH creator 4d3ef04547b6c12f7f055987c4ab7b57e821b075 @default.
FELKOH creator 554d233a63782d549cff6d0e1a8c71cf6ac38836 @default.
FELKOH creator 0000-0001-9021-2469 @default.
FELKOH creator 0000-0003-3775-3578 @default.
FELKOH description "Dataset from "A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation", which was first presented as a WiP paper at DAC 2023 and now accepted to the IEEE SOCC 2025 special session on "AI-Enhanced Semiconductor Manufacturing: Intelligent Solutions for Next-Generation Fabrication". To address the scarcity of publicly available Verilog code for training machine learning models, this study introduces a novel dataset specifically curated for Verilog autocompletion tasks. The dataset comprises over 100k Verilog files and 140k code snippets sourced from open-source repositories with permissive licenses (a list of which is available in permissive_all_deduplicated_repos.csv). It includes three subsets: file-level data, snippet-level data, and labeled definition-body pairs, each split into training, validation, and test sets. The dataset was meticulously filtered to remove autogenerated content, non-compliant licenses, and near-duplicate files, ensuring high-quality and diverse training material. Snippets were extracted using regular expressions, and additional quality control was applied by selecting files from repositories with at least one GitHub star for evaluation splits. This dataset serves as the foundation for fine-tuning pretrained language models toward Verilog code generation, enabling more effective automation in electronic design and verification workflows. More details about the dataset process can be found in the related research paper. A zipped copy of the github repository (https://github.com/99EnriqueD/verilog_autocompletion) containing code to replicate the dataset creation process has also been included in this dataset." @default.
FELKOH description "Dataset van “A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation”, dat voor het eerst werd gepresenteerd als een WiP-document tijdens DAC 2023 en nu is aanvaard voor de speciale IEEE SOCC 2025-sessie over “AI-Enhanced Semiconductor Manufacturing: Intelligente oplossingen voor de fabricage van de volgende generatie. Om de schaarste van openbaar beschikbare Verilog-code voor het trainen van machine learning-modellen aan te pakken, introduceert deze studie een nieuwe dataset die speciaal is samengesteld voor Verilog-autocompletiontaken. De dataset bestaat uit meer dan 100k Verilog bestanden en 140k code snippets afkomstig van open-source repositories met permissieve licenties (waarvan een lijst beschikbaar is in permissive_all_deduplicated_repos.csv). Het omvat drie subsets: gegevens op bestandsniveau, gegevens op fragmentniveau en gelabelde definitie-lichaamsparen, elk opgesplitst in trainings-, validatie- en testsets. De dataset werd zorgvuldig gefilterd om automatisch gegenereerde inhoud, niet-conforme licenties en bijna-dubbele bestanden te verwijderen, waardoor hoogwaardig en divers trainingsmateriaal werd gegarandeerd. Snippets werden geëxtraheerd met behulp van reguliere expressies en aanvullende kwaliteitscontrole werd toegepast door bestanden te selecteren uit repositories met ten minste één GitHub-ster voor evaluatiesplits. Deze dataset dient als basis voor het finetunen van voorgetrainde taalmodellen voor het genereren van Verilog-code, waardoor effectievere automatisering in elektronische ontwerp- en verificatieworkflows mogelijk wordt. Meer details over het datasetproces zijn te vinden in het bijbehorende onderzoeksdocument. Een gezipte kopie van de github-repository (https://github.com/99EnriqueD/verilog_autocompletion) met code om het proces voor het aanmaken van datasets te repliceren, is ook in deze dataset opgenomen." @default.
FELKOH description "Datensatz aus "A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation", der erstmals als WiP-Paper auf der DAC 2023 vorgestellt und nun zur Sondersitzung des IEEE SOCC 2025 zum Thema "AI-Enhanced Semiconductor Manufacturing: Intelligente Lösungen für die Fertigung der nächsten Generation". Um die Knappheit von öffentlich verfügbarem Verilog-Code für das Training von Machine-Learning-Modellen zu beheben, stellt diese Studie einen neuen Datensatz vor, der speziell für Verilog-Autovervollständigungsaufgaben kuratiert wurde. Der Datensatz umfasst über 100.000 Verilog-Dateien und 140.000 Code-Snippets, die aus Open-Source-Repositories mit permissiven Lizenzen stammen (eine Liste davon ist in permissive_all_deduplicated_repos.csv verfügbar). Es umfasst drei Untergruppen: Daten auf Dateiebene, Daten auf Snippet-Ebene und beschriftete Definitions-Körper-Paare, die jeweils in Trainings-, Validierungs- und Testsets aufgeteilt sind. Der Datensatz wurde sorgfältig gefiltert, um automatisch generierte Inhalte, nicht konforme Lizenzen und nahezu doppelte Dateien zu entfernen, wodurch qualitativ hochwertiges und vielfältiges Schulungsmaterial sichergestellt wurde. Snippets wurden mit regulären Ausdrücken extrahiert, und eine zusätzliche Qualitätskontrolle wurde angewendet, indem Dateien aus Repositories mit mindestens einem GitHub-Stern für Auswertungssplits ausgewählt wurden. Dieser Datensatz dient als Grundlage für die Feinabstimmung vortrainierter Sprachmodelle in Richtung Verilog-Codegenerierung und ermöglicht eine effektivere Automatisierung in elektronischen Design- und Verifikationsworkflows. Weitere Details zum Datensatzprozess finden Sie in der zugehörigen Forschungsarbeit. Eine gezippte Kopie des Github-Repositorys (https://github.com/99EnriqueD/verilog_autocompletion), die Code zum Replizieren des Datensatzerstellungsprozesses enthält, wurde ebenfalls in diesen Datensatz aufgenommen." @default.
FELKOH description "Ensemble de données de « A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation », présenté pour la première fois en tant que document WiP au DAC 2023 et maintenant accepté à la session spéciale IEEE SOCC 2025 sur « AI-Enhanced Semiconductor Manufacturing: Solutions intelligentes pour la fabrication de nouvelle génération ». Pour remédier à la rareté du code Verilog accessible au public pour la formation de modèles d'apprentissage automatique, cette étude introduit un nouvel ensemble de données spécialement conçu pour les tâches d'autocomplétion Verilog. Le jeu de données comprend plus de 100 000 fichiers Verilog et 140 000 extraits de code provenant de référentiels open source avec des licences permissives (dont une liste est disponible dans permissive_all_deduplicated_repos.csv). Il comprend trois sous-ensembles: données de niveau fichier, données de niveau extrait et paires de corps de définition étiquetées, chacune divisée en ensembles d'entraînement, de validation et de test. L'ensemble de données a été méticuleusement filtré pour supprimer le contenu généré automatiquement, les licences non conformes et les fichiers quasi-dupliqués, garantissant ainsi un matériel de formation de haute qualité et diversifié. Les extraits ont été extraits à l'aide d'expressions régulières, et un contrôle de qualité supplémentaire a été appliqué en sélectionnant des fichiers dans des dépôts avec au moins une étoile GitHub pour les fractionnements d'évaluation. Cet ensemble de données sert de base pour affiner les modèles de langage pré-entraînés vers la génération de code Verilog, permettant une automatisation plus efficace des flux de travail de conception et de vérification électroniques. Plus de détails sur le processus d'ensemble de données peuvent être trouvés dans le document de recherche connexe. Une copie zippée du dépôt github (https://github.com/99EnriqueD/verilog_autocompletion) contenant du code pour répliquer le processus de création du jeu de données a également été incluse dans ce jeu de données." @default.
FELKOH identifier "doi:10.48804/FELKOH" @default.
FELKOH issued "2025-08-21T14:51:06Z" @default.
FELKOH modified "2025-08-21T14:51:06Z" @default.
FELKOH publisher 0419052173 @default.
FELKOH subject "Computer engineering, information technology and mathematical engineering" @default.
FELKOH subject "Electrical and electronic engineering" @default.
FELKOH title "Jeu de données Verilog de « A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation »" @default.
FELKOH title "Verilog dataset from "A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation"" @default.
FELKOH title "Verilog-Datensatz aus "A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation"" @default.
FELKOH title "Verilog-dataset van "A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation"" @default.
FELKOH citedBy genid68598 @default.
FELKOH type Dataset @default.
FELKOH contactPoint genid68599 @default.
FELKOH keyword "automatic programming" @default.
FELKOH keyword "code generation" @default.
FELKOH keyword "data acquisition" @default.
FELKOH keyword "design automation" @default.
FELKOH keyword "hardware description language" @default.
FELKOH keyword "natural language processing" @default.
FELKOH landingPage FELKOH @default.
FELKOH theme TECH @default.
FELKOH version "1" @default.