Abstract
Après trente ans de controverses, le débat sur la lemmatisation s'apaise au moment où les programmes d'étiquetage et de codage grammatical sont enfin sur le marché. On s'emploie ici à comparer les résultats qu'on obtient pour un même corpus en traitant successivement les formes brutes, puis les données étiquetées, puis les lemmes dûment reconnus. Sur des données empruntées à des sources variées (programme Francil, monographie de Le Clézio, littérature latine recensée au LASLA), l'expérimentation montre que les méthodes se rejoignent lorsque la totalité du vocabulaire est prise en compte, notamment dans la mesure de la distance lexicale. Mais lorsque l'étude porte sur des distributions particulières, les données lemmatisées offrent une garantie supérieure.
Cited by
1 articles.
订阅此论文施引文献
订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献