공공법률 분야 AI 학습용 데이터셋 구축

리걸테크용 대규모 법률 문서 원시 및 원천 데이터를 확보하여 지능형 법률 검색 서비스를 위한 Q&A 데이터셋을 구축했습니다.

             

Data 종류

 공법분야 LLM 사전 학습 및 인스트럭션 튜닝 데이터

수량

 50,000 건

Client

 한국지능정보사회연구원

유형

 법령, 판결문, 결정례, 해석례 등 법률 문서 유형별 구성 요소 분석

문서 구성요소 기반, 텍스트 데이터 추출 및 전처리, 원천 데이터 구축

구축목적 

리걸테크용 대규모 법률 문서 원시 및 원천 데이터 확보

지능형 법률 검색 서비스를 위한 Q&A 데이터셋 구축


특징
  • 문서 지면배치 분석 기술

    문서 구조화 기술

제작기간

2024/05~2024/12