Malte Schierholz
Automating survey coding for occupation

FDZ-Methodenreport; 10/2014
65 S.
,
Nürnberg
,
The Research Data Centre (FDZ) of the Federal Employment Agency in the Institute for Employment Research
,
2014

Currently, most surveys ask for occupation with open-ended questions. The verbatim responses are coded afterwards into a classification with hundreds of categories and thousands of jobs, which is an error-prone, time-consuming, and costly task. Research related to the coding of occupations is summarized with an international literature review. Special attention is paid to our main topic, the automation of coding. A prominent approach for automated coding is to consult a dictionary on the correct code. In contrast, we focus on data-based methods where codes for new answers are predicted from those answers that are already coded. Four different coding methods are tested on two data sets: (1) Rule-based Coding that consults a dictionary, (2) data-based Naive Bayes that allows coding for text answers with multiple words, (3) data-based Bayesian Categorical is used to improve performance when relatively few answers were coded before, and (4) Combined Methods (Boosting) combining predictions from the first three methods. The proposed Bayesian Categorical model is able to code 38% of all answers at 3% error rate without human interaction. In all remaining cases or for higher quality human intellect is needed to decide on the correct code and computer software can only assist by suggesting possible job codes. With the prototype software we developed for this task, we expect that for 74% of all answers the correct category is provided within the top five code suggestions. The training data used for prediction consists of only 32882 coded answers which is small compared to other systems with similar purpose. The proportions given above are expected to improve with additional training data.

In vielen Umfragen ist es üblich den Beruf mit offenen Fragen zu erheben. Nach der Befragung müssen diese Texte in eine Klassifikation mit hunderten Kategorien und tausenden Berufen eingeordnet (kodiert) werden. Diese Aufgabe ist nicht nur zeitaufwändig und daher teuer, sondern auch fehleranfällig. Dieser Bericht stellt internationale Forschung zur Berufskodierung zusammen, wobei die automatische Berufskodierung besondere Beachtung findet. Eine weitverbreitete Methode zur automatischen Kodierung besteht darin, in einem Wörterbuch den korrekten Code nachzuschlagen. Im Gegensatz dazu sind datenbasierte Methoden hier hauptsächlich von Interesse. Dabei werden bereits kodierte Antworten verwendet um damit die Codes für neue Antworten vorherzusagen. Vier verschiedene Kodiermethoden werden an zwei Datensätzen getestet: (1) Regelbasierte Kodierung unter Verwendung eines Wörterbuchs, (2) datenbasiertes Naive Bayes, welches zur Kodierung von Antworten mit mehreren Wörtern gedacht ist, (3) datenbasiertes Bayesian Categorical verbessert die Kodierqualität, wenn nur wenige Antworten bereits zuvor kodiert wurden, und (4) Combined Methods (Boosting) verknüpft die Vorhersagen aus den drei zuvor genannten Methoden. Mit dem vorgestellten Bayesian Categorical Modell können 38% der Antworten bei einer Fehlerrate von 3% vollautomatisch kodiert werden. Bei allen übrigen Antworten braucht es den menschlichen Verstand um den korrekten Code bestimmen. Ein Computerprogramm kann die Entscheidung des Menschen unterstützen, indem es mögliche Berufscodes vorschlägt. Der Prototyp einer solchen Software wird vorgestellt. Dieses Programm könnte hilfreich für 74% aller Antworten sein, nämlich dann wenn der korrekte Code unter den fünf besten Vorschlägen enthalten ist. Die Trainingsdaten, die hier zur Vorhersage verwendet wurden, waren mit 32882 kodierten Antworten vergleichsweise klein. Die oben genannten Kennziffern lassen sich vermutlich noch verbessern, wenn zusätzliche Trainingsdaten vorhanden wären.